We study the problem of finding confidence ellipsoids for an arbitrary distribution in high dimensions. Given samples from a distribution $D$ and a confidence parameter $α$, the goal is to find the smallest volume ellipsoid $E$ which has probability mass $\mathbb{P}_{D}[E] \ge 1-α$. Ellipsoids are a highly expressive class of confidence sets as they can capture correlations in the distribution, and can approximate any convex set. In statistics, this is the classic minimum volume estimator introduced by Rousseeuw as a robust non-parametric estimator of location and scatter. However in high dimensions, it becomes NP-hard to obtain any non-trivial approximation factor in volume when the condition number $β$ of the ellipsoid (ratio of the largest to the smallest axis length) goes to $\infty$. This motivates the focus of our paper: can we efficiently find confidence ellipsoids with volume approximation guarantees when compared to ellipsoids of bounded condition number $β$? Our main result is a polynomial time algorithm that finds an ellipsoid $E$ whose volume is within a $O(β)^{γd}$ multiplicative factor of the volume of best $β$-conditioned ellipsoid while covering at least $1-O(α/γ)$ probability mass for any $γ\in (0,1)$. In particular, setting $γ= o(1)$, this gives a $O(β)^{o(d)}$ volume approximation, with a multiplicative loss in miscoverage. We complement this with a computational hardness result that shows that such a dependence on $β$ seems necessary, even with some slack in coverage. The algorithm and analysis uses the rich primal-dual structure of the minimum volume enclosing ellipsoid and the geometric Brascamp-Lieb inequality. As a consequence, we obtain the first polynomial time algorithm with approximation guarantees on worst-case instances of the robust subspace recovery problem.


翻译:我们研究在高维任意分布下寻找置信椭球的问题。给定来自分布 $D$ 的样本和置信参数 $α$,目标是找到体积最小的椭球 $E$,使得其概率质量 $\mathbb{P}_{D}[E] \ge 1-α$。椭球是一类高度表达的置信集,因为它们能够捕捉分布中的相关性,并可逼近任意凸集。在统计学中,这是由Rousseeuw引入的经典最小体积估计量,作为一种鲁棒的非参数位置和散度估计量。然而在高维中,当椭球的条件数 $β$(即最长轴与最短轴长度之比)趋近于 $\infty$ 时,在体积上获得任何非平凡近似因子都成为NP难问题。这激发了本文的重点:与有界条件数 $β$ 的椭球相比,我们能否高效找到具有体积近似保证的置信椭球?我们的主要成果是一个多项式时间算法,该算法能找到一个椭球 $E$,其体积与最佳 $β$ 条件椭球体积相比,在覆盖至少 $1-O(α/γ)$ 概率质量的前提下,具有 $O(β)^{γd}$ 的乘性因子。对于任意 $γ\in (0,1)$。特别地,当 $γ= o(1)$ 时,这给出 $O(β)^{o(d)}$ 的体积近似,同时在未覆盖率上有乘性损失。我们通过计算困难性结果补充说明,即使覆盖度存在一定松弛,对 $β$ 的这种依赖似乎是必要的。该算法和分析利用了最小体积包围椭球的丰富原始-对偶结构以及几何Brascamp-Lieb不等式。由此,我们首次获得在鲁棒子空间恢复问题的最坏情况实例上具有近似保证的多项式时间算法。

0
下载
关闭预览

相关内容

《可信迁移学习:综述》
专知会员服务
28+阅读 · 2024年12月20日
【博士论文】拓扑空间上的信号处理与学习
专知会员服务
31+阅读 · 2024年3月12日
几何观点下的深度学习
专知会员服务
36+阅读 · 2022年12月13日
知识图谱表示学习的对抗鲁棒性
专知会员服务
40+阅读 · 2022年10月7日
专知会员服务
47+阅读 · 2020年11月13日
ICLR 2019 | 基于复杂空间关系旋转的知识表示方法
PaperWeekly
17+阅读 · 2019年7月29日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
知识图谱中的深度学习技术应用概述
深度学习与NLP
11+阅读 · 2018年9月13日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员