Consider two problems about an unknown probability distribution $p$: 1. How many samples from $p$ are required to test if $p$ is supported on $n$ elements or not? Specifically, given samples from $p$, determine whether it is supported on at most $n$ elements, or it is "$ε$-far" (in total variation distance) from being supported on $n$ elements. 2. Given $m$ samples from $p$, what is the largest lower bound on its support size that we can produce? The best known upper bound for problem (1) uses a general algorithm for learning the histogram of the distribution $p$, which requires $Θ(\tfrac{n}{ε^2 \log n})$ samples. We show that testing can be done more efficiently than learning the histogram, using only $O(\tfrac{n}{ε\log n} \log(1/ε))$ samples, nearly matching the best known lower bound of $Ω(\tfrac{n}{ε\log n})$. This algorithm also provides a better solution to problem (2), producing larger lower bounds on support size than what follows from previous work. The proof relies on an analysis of Chebyshev polynomial approximations outside the range where they are designed to be good approximations, and the paper is intended as an accessible self-contained exposition of the Chebyshev polynomial method.


翻译:考虑关于未知概率分布 $p$ 的两个问题:1. 需要从 $p$ 中抽取多少样本,才能检验 $p$ 是否支撑在 $n$ 个元素上?具体而言,给定从 $p$ 中抽取的样本,判断其支撑集大小是否至多为 $n$ 个元素,或者其与支撑在 $n$ 个元素上的分布之间的总变差距离至少为 $ε$(即“$ε$-远离”)。2. 给定从 $p$ 中抽取的 $m$ 个样本,我们能对其支撑集大小给出多大的下界?问题 (1) 的最佳已知上界使用了一种学习分布 $p$ 直方图的通用算法,该算法需要 $Θ(\tfrac{n}{ε^2 \log n})$ 个样本。我们证明,测试可以比学习直方图更高效地完成,仅需 $O(\tfrac{n}{ε\log n} \log(1/ε))$ 个样本,这几乎匹配已知最佳下界 $Ω(\tfrac{n}{ε\log n})$。该算法也为问题 (2) 提供了更好的解决方案,相比于先前工作,能够给出更大的支撑集大小下界。证明依赖于对切比雪夫多项式在其设计为良好近似范围之外的近似性质的分析,本文旨在作为切比雪夫多项式方法的自包含且易读的综述性阐述。

0
下载
关闭预览

相关内容

训练数据多少才够用
专知
16+阅读 · 2019年5月4日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 5月21日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员