We study a noisy linear observation model with an unknown permutation called permuted/shuffled linear regression, where responses and covariates are mismatched and the permutation forms a discrete, factorial-size parameter. This unknown permutation is a key component of the data-generating process, yet its statistical investigation remains challenging due to its discrete nature. In this study, we develop a general statistical inference framework on the permutation and regression coefficients. First, we introduce a localization step that reduces the permutation space to a small candidate set building on recent advances in the repro samples method, whose miscoverage decays polynomially with the number of Monte Carlo samples. Then, based on this localized set, we provide statistical inference procedures: a conditional Monte Carlo test of permutation structures with valid finite-sample Type-I error control. We also develop coefficient inference that remains valid under alignment uncertainty of permutations. For computational purposes, we develop a linear assignment problem computable in polynomial time complexity and demonstrate that its solution asymptotically converges to that of the conventional least squares problem with large computational cost. Extensions to partially permuted designs and ridge regularization are also discussed. Extensive simulations and an application to Beijing air-quality data corroborate finite-sample validity, strong power to detect mismatches, and practical scalability.


翻译:我们研究一种包含未知置换的含噪线性观测模型,称为置换/混洗线性回归,其中响应变量与协变量存在错配,而置换构成了一个离散的、阶乘规模的参数。这一未知置换是数据生成过程的关键组成部分,但由于其离散特性,其统计研究仍面临挑战。在本研究中,我们针对置换与回归系数构建了一个通用的统计推断框架。首先,我们引入基于重抽样方法最新进展的定位步骤,将置换空间缩减至一个较小的候选集合,其误覆盖概率随蒙特卡洛样本数量多项式衰减。随后,基于该局部化集合,我们提出了统计推断方法:一种具有有限样本第一类错误有效控制的置换结构条件蒙特卡洛检验。我们还开发了在置换对齐不确定性下仍保持有效的系数推断方法。针对计算需求,我们构建了一个可在多项式时间复杂度内求解的线性分配问题,并证明其解在渐进意义上收敛于传统计算成本高昂的最小二乘问题的解。本文还讨论了向部分置换设计与岭正则化的扩展。大量模拟实验及对北京空气质量数据的应用验证了该方法的有限样本有效性、检测错配的强功效以及实际可扩展性。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
【CMU博士论文】非参数因果推断,241页pdf
专知会员服务
35+阅读 · 2023年6月20日
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
43+阅读 · 2022年11月7日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
84+阅读 · 2022年9月20日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
线性回归:简单线性回归详解
专知
12+阅读 · 2018年3月10日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月15日
VIP会员
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
线性回归:简单线性回归详解
专知
12+阅读 · 2018年3月10日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员