We develop machinery to design efficiently computable and consistent estimators, achieving estimation error approaching zero as the number of observations grows, when facing an oblivious adversary that may corrupt responses in all but an $\alpha$ fraction of the samples. As concrete examples, we investigate two problems: sparse regression and principal component analysis (PCA). For sparse regression, we achieve consistency for optimal sample size $n\gtrsim (k\log d)/\alpha^2$ and optimal error rate $O(\sqrt{(k\log d)/(n\cdot \alpha^2)})$ where $n$ is the number of observations, $d$ is the number of dimensions and $k$ is the sparsity of the parameter vector, allowing the fraction of inliers to be inverse-polynomial in the number of samples. Prior to this work, no estimator was known to be consistent when the fraction of inliers $\alpha$ is $o(1/\log \log n)$, even for (non-spherical) Gaussian design matrices. Results holding under weak design assumptions and in the presence of such general noise have only been shown in dense setting (i.e., general linear regression) very recently by d'Orsi et al. [dNS21]. In the context of PCA, we attain optimal error guarantees under broad spikiness assumptions on the parameter matrix (usually used in matrix completion). Previous works could obtain non-trivial guarantees only under the assumptions that the measurement noise corresponding to the inliers is polynomially small in $n$ (e.g., Gaussian with variance $1/n^2$). To devise our estimators, we equip the Huber loss with non-smooth regularizers such as the $\ell_1$ norm or the nuclear norm, and extend d'Orsi et al.'s approach [dNS21] in a novel way to analyze the loss function. Our machinery appears to be easily applicable to a wide range of estimation problems.


翻译:我们开发了高效可理解和一致的估测器, 当观测数量增长时, 估计误差接近零, 当观测数量增长时, 当面对一个模糊的对手, 它可能会腐蚀所有样本中的反应, 除了一个 $\ alpha2 的一小部分。 作为具体的例子, 我们调查了两个问题: 缩放回归和主要成分分析( PCA) 。 对于稀释的回归, 我们实现最佳样本规模的一致性 $\ gtrsim (k\log d) /\alpha2$ 和最佳误差率 $O( sqrt{( k\log d) ) / (n\ dalpha2) 美元时, 估计误差率接近零, 美元为 美元, 美元为 美元, 美元 美元, 美元 美元 美元, 美元 美元, 美元 美元 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 美元, 等, 等, 等, 等, 等, 等, 等, 。 。 等, 。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年6月12日
专知会员服务
52+阅读 · 2020年12月14日
已删除
将门创投
8+阅读 · 2019年1月30日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2022年1月7日
Arxiv
0+阅读 · 2022年1月4日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
0+阅读 · 今天14:33
长时程具身智能安全综述:机器人操作的跨层分析
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
2+阅读 · 今天13:55
ICML 2026 | 演化选择的因果建模
专知会员服务
4+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
4+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
7+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
16+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
13+阅读 · 6月4日
相关VIP内容
相关资讯
已删除
将门创投
8+阅读 · 2019年1月30日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员