We study mean estimation for a Gaussian distribution with identity covariance in $\mathbb{R}^d$ under a missing data scheme termed realizable $ε$-contamination model. In this model an adversary can choose a function $r(x)$ between 0 and $ε$ and each sample $x$ goes missing with probability $r(x)$. Recent work Ma et al., 2024 proposed this model as an intermediate-strength setting between Missing Completely At Random (MCAR) -- where missingness is independent of the data -- and Missing Not At Random (MNAR) -- where missingness may depend arbitrarily on the sample values and can lead to non-identifiability issues. That work established information-theoretic upper and lower bounds for mean estimation in the realizable contamination model. Their proposed estimators incur runtime exponential in the dimension, leaving open the possibility of computationally efficient algorithms in high dimensions. In this work, we establish an information-computation gap in the Statistical Query model (and, as a corollary, for Low-Degree Polynomials and PTF tests), showing that algorithms must either use substantially more samples than information-theoretically necessary or incur exponential runtime. We complement our SQ lower bound with an algorithm whose sample-time tradeoff nearly matches our lower bound. Together, these results qualitatively characterize the complexity of Gaussian mean estimation under $ε$-realizable contamination.


翻译:我们研究了在$\mathbb{R}^d$中具有单位协方差的高斯分布在一种称为可实现的$ε$污染模型的缺失数据机制下的均值估计问题。在该模型中,对手可以选择一个介于0和$ε$之间的函数$r(x)$,并且每个样本$x$以概率$r(x)$缺失。近期工作Ma等人(2024)提出该模型作为介于完全随机缺失(MCAR)——其中缺失性与数据独立——与非随机缺失(MNAR)——其中缺失性可能任意依赖于样本值并可能导致不可识别性问题——之间的中等强度设定。该工作建立了可实现污染模型中均值估计的信息理论上界和下界。他们提出的估计器在运行时间上具有维度指数级开销,这为在高维情况下设计计算高效的算法留下了可能性。在本工作中,我们在统计查询模型(以及作为推论,对于低次多项式和PTF检验)中建立了一个信息-计算间隙,表明算法要么必须使用比信息理论上必要数量显著更多的样本,要么承受指数级的运行时间。我们用一个样本-时间权衡几乎匹配我们下界的算法来补充我们的SQ下界。这些结果共同定性地刻画了在$ε$可实现污染下高斯均值估计的复杂度。

0
下载
关闭预览

相关内容

【CMU博士论文】高斯表示的可微渲染和优化,198页pdf
专知会员服务
27+阅读 · 2023年10月5日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
9+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
14+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员