High-dimensional estimation with missing data: Statistical and computational limits - 专知论文

会员服务 ·

0

缺失数据 · 算法 · 高维 · 污染 · 间隙 ·

High-dimensional estimation with missing data: Statistical and computational limits

翻译：高维缺失数据估计：统计与计算极限

Kabir Aladin Verchand,Ankit Pensia,Saminul Haque,Rohith Kuditipudi

We consider computationally-efficient estimation of population parameters when observations are subject to missing data. In particular, we consider estimation under the realizable contamination model of missing data in which an $ε$ fraction of the observations are subject to an arbitrary (and unknown) missing not at random (MNAR) mechanism. When the true data is Gaussian, we provide evidence towards statistical-computational gaps in several problems. For mean estimation in $\ell_2$ norm, we show that in order to obtain error at most $ρ$, for any constant contamination $ε\in (0, 1)$, (roughly) $n \gtrsim d e^{1/ρ^2}$ samples are necessary and that there is a computationally-inefficient algorithm which achieves this error. On the other hand, we show that any computationally-efficient method within certain popular families of algorithms requires a much larger sample complexity of (roughly) $n \gtrsim d^{1/ρ^2}$ and that there exists a polynomial time algorithm based on sum-of-squares which (nearly) achieves this lower bound. For covariance estimation in relative operator norm, we show that a parallel development holds. Finally, we turn to linear regression with missing observations and show that such a gap does not persist. Indeed, in this setting we show that minimizing a simple, strongly convex empirical risk nearly achieves the information-theoretic lower bound in polynomial time.

翻译：本文研究在观测数据存在缺失情况下的计算高效总体参数估计问题。具体而言，我们考虑在可实现污染缺失数据模型下的估计问题，其中$ε$比例的观测数据受到任意（且未知）的非随机缺失机制影响。当真实数据服从高斯分布时，我们为若干问题中的统计-计算间隙提供了证据。对于$\ell_2$范数下的均值估计，我们证明：为获得至多$ρ$的误差，对于任意常数污染率$ε\in (0, 1)$，需要（约）$n \gtrsim d e^{1/ρ^2}$的样本量，且存在一种计算低效算法能达到该误差界。另一方面，我们证明在某些主流算法族中，任何计算高效方法都需要（约）$n \gtrsim d^{1/ρ^2}$的更大样本复杂度，并存在基于平方和规划的多项式时间算法（近乎）达到该下界。对于相对算子范数下的协方差估计，我们证明了类似结论同样成立。最后，我们转向缺失观测下的线性回归问题，发现此类间隙并不持续存在。在该设定下，我们证明最小化一个简单的强凸经验风险函数即可在多项式时间内近乎达到信息论下界。

0

相关内容

缺失数据

在统计调查的过程中，由于受访者对问题的遗漏、拒绝，或是调查员与调查问卷本身存在的一些疏忽，使得记录经常会出现缺失数据 (Missing Data) 的问题。但是，几乎所有标准统计方法都假设每个个案具有可用于分析的所有变量信息，因此缺失数据就成为进行统计研究或问卷调查的工作人员所必须解决的一个问题。

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

专知会员服务

31+阅读 · 2023年9月30日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

如何处理数据缺失值？INRIA研究员Gael 《机器学习缺失值处理》54页ppt教程，为你讲解

如何处理数据缺失值？INRIA研究员Gael 《机器学习缺失值处理》54页ppt教程，为你讲解

专知会员服务

26+阅读 · 2022年4月21日

缺失数据处理方法研究综述

专知会员服务

38+阅读 · 2021年5月10日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

112+阅读 · 2020年2月28日

【哈佛大学】机器学习的层次局限性，A Hierarchy of Limitations in Machine Learning

【哈佛大学】机器学习的层次局限性，A Hierarchy of Limitations in Machine Learning

专知会员服务

47+阅读 · 2020年2月12日

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

专知会员服务

30+阅读 · 2019年11月30日

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

专知

12+阅读 · 2019年1月25日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

超高维生存数据变量筛选和选择中若干问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

Bounding causal effects with an unknown mixture of informative and non-informative missingness

Bounding causal effects with an unknown mixture of informative and non-informative missingness

Arxiv

0+阅读 · 3月17日

High-Dimensional Gaussian Mean Estimation under Realizable Contamination

Arxiv

0+阅读 · 3月17日

Low-Complexity and Consistent Graphon Estimation from Multiple Networks

Arxiv

0+阅读 · 3月16日

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Arxiv

0+阅读 · 3月16日

Uncertainty Quantification and Data Efficiency in AI: An Information-Theoretic Perspective

Arxiv

0+阅读 · 3月14日

Dirichlet kernel density estimation on the simplex with missing data

Arxiv

0+阅读 · 3月8日

A robust and powerful method for assessing replicability of high dimensional data

Arxiv

0+阅读 · 3月4日

Assessment of Spatio-Temporal Predictors in the Presence of Missing and Heterogeneous Data

Arxiv

0+阅读 · 2月27日

Mean Estimation from Coarse Data: Characterizations and Efficient Algorithms

Arxiv

0+阅读 · 2月26日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

9+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

5+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

6+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

9+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

14+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

6+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

12+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

专知会员服务

31+阅读 · 2023年9月30日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

如何处理数据缺失值？INRIA研究员Gael 《机器学习缺失值处理》54页ppt教程，为你讲解

如何处理数据缺失值？INRIA研究员Gael 《机器学习缺失值处理》54页ppt教程，为你讲解

专知会员服务

26+阅读 · 2022年4月21日

缺失数据处理方法研究综述

专知会员服务

38+阅读 · 2021年5月10日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

112+阅读 · 2020年2月28日

【哈佛大学】机器学习的层次局限性，A Hierarchy of Limitations in Machine Learning

【哈佛大学】机器学习的层次局限性，A Hierarchy of Limitations in Machine Learning

专知会员服务

47+阅读 · 2020年2月12日

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

专知会员服务

30+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

专知

12+阅读 · 2019年1月25日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

相关论文

Bounding causal effects with an unknown mixture of informative and non-informative missingness

Bounding causal effects with an unknown mixture of informative and non-informative missingness

Arxiv

0+阅读 · 3月17日

High-Dimensional Gaussian Mean Estimation under Realizable Contamination

Arxiv

0+阅读 · 3月17日

Low-Complexity and Consistent Graphon Estimation from Multiple Networks

Arxiv

0+阅读 · 3月16日

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Arxiv

0+阅读 · 3月16日

Uncertainty Quantification and Data Efficiency in AI: An Information-Theoretic Perspective

Arxiv

0+阅读 · 3月14日

Dirichlet kernel density estimation on the simplex with missing data

Arxiv

0+阅读 · 3月8日

A robust and powerful method for assessing replicability of high dimensional data

Arxiv

0+阅读 · 3月4日

Assessment of Spatio-Temporal Predictors in the Presence of Missing and Heterogeneous Data

Arxiv

0+阅读 · 2月27日

Mean Estimation from Coarse Data: Characterizations and Efficient Algorithms

Arxiv

0+阅读 · 2月26日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

超高维生存数据变量筛选和选择中若干问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员