Semi-supervised linear regression with missing covariates - 专知论文

会员服务 ·

0

稀疏 · 数据集 · 监督 · 结构 · 结构化 ·

Semi-supervised linear regression with missing covariates

翻译：半监督线性回归中的协变量缺失问题

Benedict M. Risebrow,Thomas B. Berrett

Missing values in datasets are common in applied statistics. For regression problems, theoretical work thus far has largely considered the issue of missing covariates as distinct from missing responses. However, in practice, many datasets have both forms of missingness. Motivated by this gap, we study linear regression with a labelled dataset containing missing covariates, potentially alongside an unlabelled dataset. We consider both structured (blockwise-missing) and unstructured missingness patterns, along with sparse and non-sparse regression parameters. For the non-sparse case, we provide an estimator based on imputing the missing data combined with a reweighting step. For the high-dimensional sparse case, we use a modified version of the Dantzig selector. We provide non-asymptotic upper bounds on the risk of both procedures. These are matched by several new minimax lower bounds, demonstrating the rate optimality of our estimators. Notably, even when the linear model is well-specified, our results characterise substantial differences in the minimax rates when unlabelled data is present relative to the fully supervised setting. Particular consequences of our sparse and non-sparse results include the first matching upper and lower bounds on the minimax rate for the supervised setting when either unstructured or structured missingness is present. Our theory is coupled with extensive simulations and a semi-synthetic application to the California housing dataset.

翻译：数据集中的缺失值在应用统计学中十分常见。对于回归问题，现有的理论研究大多将协变量缺失与响应变量缺失视为相互独立的问题。然而在实际应用中，许多数据集同时存在这两种缺失形式。基于这一研究空白，本文研究在标注数据集存在协变量缺失（可能同时存在未标注数据集）情况下的线性回归问题。我们同时考虑了结构化（块状缺失）与非结构化的缺失模式，以及稀疏与非稀疏的回归参数。针对非稀疏情形，我们提出了一种基于缺失数据填补与重加权步骤相结合的估计器。针对高维稀疏情形，我们采用了改进版的Dantzig选择器。我们为两种方法的风险提供了非渐近上界，并通过若干新的极小极大下界证明这些上界是匹配的，从而验证了估计器的速率最优性。值得注意的是，即使线性模型设定正确，我们的结果也揭示了存在未标注数据时极小极大速率与完全监督设定间的显著差异。特别地，我们的稀疏与非稀疏结果首次实现了在监督设定下（存在非结构化或结构化缺失时）极小极大速率上下界的匹配。理论分析辅以大量模拟实验，并在加利福尼亚住房数据集上进行了半合成应用验证。

0

相关内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

专知会员服务

31+阅读 · 2023年9月30日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

【KDD2023】半监督图不平衡回归

【KDD2023】半监督图不平衡回归

专知会员服务

26+阅读 · 2023年5月24日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

【ICML2021】深入研究不平衡回归问题

专知会员服务

37+阅读 · 2021年6月6日

缺失数据处理方法研究综述

专知会员服务

38+阅读 · 2021年5月10日

【CVPR2021】基于对比预测的缺失视图聚类方法

专知会员服务

22+阅读 · 2021年3月25日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知会员服务

89+阅读 · 2020年2月28日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

112+阅读 · 2020年2月28日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

专知

26+阅读 · 2022年2月2日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

如何理解模型的过拟合与欠拟合，以及如何解决？

如何理解模型的过拟合与欠拟合，以及如何解决？

七月在线实验室

12+阅读 · 2019年4月23日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

高维半参数模型假设检验问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

Variational Inference for Variable Selection in Scalar-on-Function Regression

Arxiv

0+阅读 · 3月9日

Comparing Variable Selection and Model Averaging Methods for Logistic Regression

Arxiv

0+阅读 · 3月6日

Least trimmed squares regression with missing values and cellwise outliers

Arxiv

0+阅读 · 3月4日

Variable Selection for Linear Regression Imputation in Surveys

Arxiv

0+阅读 · 3月4日

Expected Shortfall Regression via Optimization

Arxiv

0+阅读 · 2月21日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

Representation Learning with Blockwise Missingness and Signal Heterogeneity

Arxiv

0+阅读 · 2月12日

Missing At Random as Covariate Shift: Correcting Bias in Iterative Imputation

Arxiv

0+阅读 · 2月6日

Assessing Omitted Variable Bias when the Controls are Endogenous

Arxiv

0+阅读 · 2月4日

Revisiting Multivariate Time Series Forecasting with Missing Values

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

专知会员服务

31+阅读 · 2023年9月30日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

【KDD2023】半监督图不平衡回归

【KDD2023】半监督图不平衡回归

专知会员服务

26+阅读 · 2023年5月24日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

【ICML2021】深入研究不平衡回归问题

专知会员服务

37+阅读 · 2021年6月6日

缺失数据处理方法研究综述

专知会员服务

38+阅读 · 2021年5月10日

【CVPR2021】基于对比预测的缺失视图聚类方法

专知会员服务

22+阅读 · 2021年3月25日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知会员服务

89+阅读 · 2020年2月28日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

112+阅读 · 2020年2月28日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

专知

26+阅读 · 2022年2月2日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

如何理解模型的过拟合与欠拟合，以及如何解决？

如何理解模型的过拟合与欠拟合，以及如何解决？

七月在线实验室

12+阅读 · 2019年4月23日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

相关论文

Variational Inference for Variable Selection in Scalar-on-Function Regression

Arxiv

0+阅读 · 3月9日

Comparing Variable Selection and Model Averaging Methods for Logistic Regression

Arxiv

0+阅读 · 3月6日

Least trimmed squares regression with missing values and cellwise outliers

Arxiv

0+阅读 · 3月4日

Variable Selection for Linear Regression Imputation in Surveys

Arxiv

0+阅读 · 3月4日

Expected Shortfall Regression via Optimization

Arxiv

0+阅读 · 2月21日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

Representation Learning with Blockwise Missingness and Signal Heterogeneity

Arxiv

0+阅读 · 2月12日

Missing At Random as Covariate Shift: Correcting Bias in Iterative Imputation

Arxiv

0+阅读 · 2月6日

Assessing Omitted Variable Bias when the Controls are Endogenous

Arxiv

0+阅读 · 2月4日

Revisiting Multivariate Time Series Forecasting with Missing Values

Arxiv

0+阅读 · 1月30日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

高维半参数模型假设检验问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员