In this paper, we study the problem of multivariate shuffled linear regression, where the correspondence between predictors and responses in a linear model is obfuscated by a latent permutation. Specifically, we investigate the model $Y=\tfrac{1}{\sqrt{1+σ^2}}(Π_* X Q_* + σZ)$, where $X$ is an $n*d$ standard Gaussian design matrix, $Z$ is an $n*m$ Gaussian noise matrix, $Π_*$ is an unknown $n*n$ permutation matrix, and $Q_*$ is an unknown $d*m$ on the Grassmanian manifold satisfying $Q_*^{\top} Q_* = \mathbb I_m$. Consider the hypothesis testing problem of distinguishing this model from the case where $X$ and $Y$ are independent Gaussian random matrices of sizes $n*d$ and $n*m$, respectively. Our results reveal a phase transition phenomenon in the performance of low-degree polynomial algorithms for this task. (1) When $m=o(d)$, we show that all degree-$D$ polynomials fail to distinguish these two models even when $σ=0$, provided with $D^4=o\big( \tfrac{d}{m} \big)$. (2) When $m=d$ and $σ=ω(1)$, we show that all degree-$D$ polynomials fail to distinguish these two models provided with $D=o(σ)$. (3) When $m=d$ and $σ=o(1)$, we show that there exists a constant-degree polynomial that strongly distinguish these two models. These results establish a smooth transition in the effectiveness of low-degree polynomial algorithms for this problem, highlighting the interplay between the dimensions $m$ and $d$, the noise level $σ$, and the computational complexity of the testing task.


翻译:本文研究多元混洗线性回归问题,其中线性模型的预测变量与响应变量之间的对应关系被潜在排列所混淆。具体而言,我们研究模型 $Y=\tfrac{1}{\sqrt{1+σ^2}}(Π_* X Q_* + σZ)$,其中 $X$ 为 $n*d$ 标准高斯设计矩阵,$Z$ 为 $n*m$ 高斯噪声矩阵,$Π_*$ 为未知的 $n*n$ 置换矩阵,$Q_*$ 为满足 $Q_*^{\top} Q_* = \mathbb I_m$ 的 Grassmanian 流形上未知的 $d*m$ 矩阵。考虑区分该模型与 $X$ 和 $Y$ 分别为 $n*d$ 和 $n*m$ 独立高斯随机矩阵情形的假设检验问题。我们的结果揭示了低阶多项式算法在此任务中性能的相变现象。(1) 当 $m=o(d)$ 时,若 $D^4=o\big( \tfrac{d}{m} \big)$,则所有 $D$ 阶多项式在 $σ=0$ 时仍无法区分这两个模型。(2) 当 $m=d$ 且 $σ=ω(1)$ 时,若 $D=o(σ)$,则所有 $D$ 阶多项式无法区分这两个模型。(3) 当 $m=d$ 且 $σ=o(1)$ 时,存在常数阶多项式能强区分这两个模型。这些结果建立了低阶多项式算法对此问题有效性的平滑过渡,揭示了维度 $m$ 与 $d$、噪声水平 $σ$ 以及检验任务计算复杂度之间的相互作用。

0
下载
关闭预览

相关内容

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【KDD2025】DUET:双重聚类增强的多变量时间序列预测
专知会员服务
17+阅读 · 2024年12月30日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
线性回归:简单线性回归详解
专知
12+阅读 · 2018年3月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【KDD2025】DUET:双重聚类增强的多变量时间序列预测
专知会员服务
17+阅读 · 2024年12月30日
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
线性回归:简单线性回归详解
专知
12+阅读 · 2018年3月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员