Given a sequence of samples $x_1, \dots , x_k$ promised to be drawn from one of two distributions $X_0, X_1$, a well-studied problem in statistics is to decide $\textit{which}$ distribution the samples are from. Information theoretically, the maximum advantage in distinguishing the two distributions given $k$ samples is captured by the total variation distance between $X_0^{\otimes k}$ and $X_1^{\otimes k}$. However, when we restrict our attention to $\textit{efficient distinguishers}$ (i.e., small circuits) of these two distributions, exactly characterizing the ability to distinguish $X_0^{\otimes k}$ and $X_1^{\otimes k}$ is more involved and less understood. In this work, we give a general way to reduce bounds on the computational indistinguishability of $X_0$ and $X_1$ to bounds on the $\textit{information-theoretic}$ indistinguishability of some specific, related variables $\widetilde{X}_0$ and $\widetilde{X}_1$. As a consequence, we prove a new, tight characterization of the number of samples $k$ needed to efficiently distinguish $X_0^{\otimes k}$ and $X_1^{\otimes k}$ with constant advantage as \[ k = \Theta\left(d_H^{-2}\left(\widetilde{X}_0, \widetilde{X}_1\right)\right), \] which is the inverse of the squared Hellinger distance $d_H$ between two distributions $\widetilde{X}_0$ and $\widetilde{X}_1$ that are computationally indistinguishable from $X_0$ and $X_1$. Likewise, our framework can be used to re-derive a result of Halevi and Rabin (TCC 2008) and Geier (TCC 2022), proving nearly-tight bounds on how computational indistinguishability scales with the number of samples for arbitrary product distributions.


翻译:给定一个样本序列 $x_1, \\dots , x_k$,已知其来自两个分布 $X_0$ 或 $X_1$ 之一,统计学中的一个经典问题是判断样本究竟来自哪个分布。从信息论角度看,给定 $k$ 个样本时区分这两个分布的最大优势由 $X_0^{\\otimes k}$ 与 $X_1^{\\otimes k}$ 之间的总变差距离所刻画。然而,当我们将注意力限制在这两个分布的高效区分器(即小型电路)时,精确刻画区分 $X_0^{\\otimes k}$ 和 $X_1^{\\otimes k}$ 的能力则更为复杂且研究较少。本文提出一种通用方法,将 $X_0$ 和 $X_1$ 的计算不可区分性界约化为某些特定相关变量 $\\widetilde{X}_0$ 和 $\\widetilde{X}_1$ 的信息论不可区分性界。由此,我们证明了以恒定优势高效区分 $X_0^{\\otimes k}$ 和 $X_1^{\\otimes k}$ 所需样本数 $k$ 的新紧致特征:\\[ k = \\Theta\\left(d_H^{-2}\\left(\\widetilde{X}_0, \\widetilde{X}_1\\right)\\right), \\] 其中 $d_H$ 表示与 $X_0$ 和 $X_1$ 计算不可区分的两个分布 $\\widetilde{X}_0$ 和 $\\widetilde{X}_1$ 之间的 Hellinger 距离平方的倒数。同样,我们的框架可用于重新推导 Halevi 和 Rabin(TCC 2008)以及 Geier(TCC 2022)的结果,证明任意乘积分布的计算不可区分性随样本数量变化的近紧致界。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员