We study the problem of approximately recovering a probability distribution given noisy measurements of its Chebyshev polynomial moments. This problem arises broadly across algorithms, statistics, and machine learning. By leveraging a global decay bound on the coefficients in the Chebyshev expansion of any Lipschitz function, we sharpen prior work, proving that accurate recovery in the Wasserstein distance is possible with more noise than previously known. Our result immediately yields a number of applications: 1) We give a simple "linear query" algorithm for constructing a differentially private synthetic data distribution with Wasserstein-$1$ error $\tilde{O}(1/n)$ based on a dataset of $n$ points in $[-1,1]$. This bound is optimal up to log factors, and matches a recent result of Boedihardjo, Strohmer, and Vershynin [Probab. Theory. Rel., 2024], which uses a more complex "superregular random walk" method. 2) We give an $\tilde{O}(n^2/ε)$ time algorithm for the linear algebraic problem of estimating the spectral density of an $n\times n$ symmetric matrix up to $ε$ error in the Wasserstein distance. Our result accelerates prior methods from Chen et al. [ICML 2021] and Braverman et al. [STOC 2022]. 3) We tighten an analysis of Vinayak, Kong, Valiant, and Kakade [ICML 2019] on the maximum likelihood estimator for the statistical problem of "Learning Populations of Parameters'', extending the parameter regime in which sample optimal results can be obtained. Beyond these main results, we provide an extension of our bound to estimating distributions in $d > 1$ dimensions. We hope that these bounds will find applications more broadly to problems involving distribution recovery from noisy moment information.


翻译:我们研究了在给定含噪切比雪夫多项式矩测量值的情况下,近似恢复概率分布的问题。该问题广泛出现在算法、统计和机器学习领域。通过利用任意Lipschitz函数切比雪夫展开中系数的全局衰减界,我们改进了先前工作,证明在比已知结果更大的噪声水平下,仍可在Wasserstein距离下实现精确恢复。该结果直接衍生出若干应用:1) 我们提出了一种简单的“线性查询”算法,基于区间$[-1,1]$上$n$个点的数据集,构建具有Wasserstein-1误差$\tilde{O}(1/n)$的差分隐私合成数据分布。该界在忽略对数因子时达到最优,与Boedihardjo、Strohmer和Vershynin[Probab. Theory. Rel., 2024]近期使用更复杂的“超正则随机游走”方法所得结果一致。2) 我们给出了$\tilde{O}(n^2/\epsilon)$时间算法,用于解决线性代数问题:估计$n\times n$对称矩阵的谱密度,使其Wasserstein距离误差不超过$\epsilon$。该结果加速了Chen等人[ICML 2021]和Braverman等人[STOC 2022]的先前方法。3) 我们改进了Vinayak、Kong、Valiant和Kakade[ICML 2019]关于“参数种群学习”统计问题中最大似然估计的分析,扩展了可获得样本最优结果的参数范围。除上述主要结果外,我们将所提界推广至高维($d>1$)分布估计。期望这些界能在更广的涉及含噪矩信息分布恢复问题中得到应用。

0
下载
关闭预览

相关内容

专知会员服务
16+阅读 · 2021年10月4日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月14日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员