In this paper, we study the problem of mean estimation under 1-bit communication constraints. We propose a novel adaptive mean estimator based solely on randomized threshold queries, where each 1-bit outcome indicates whether a given sample exceeds a sequentially chosen threshold. Our estimator is $(ε, δ)$-PAC for any distribution with a bounded mean $μ\in [-λ, λ]$ and a bounded $k$-th central moment $\mathbb{E}[|X-μ|^k] \le σ^k$ for any fixed $k > 1$. Moreover, our sample complexity is order-optimal in all such tail regimes, i.e., for every such $k$ value. For $k \neq 2$, our estimator's sample complexity matches the unquantized minimax lower bounds plus an unavoidable $O(\log(λ/σ))$ localization cost. For the finite-variance case ($k=2$), our estimator's sample complexity has an extra multiplicative $O(\log(σ/ε))$ penalty, and we establish a novel information-theoretic lower bound showing that this penalty is a fundamental limit of 1-bit quantization. We also establish a significant adaptivity gap: for both threshold queries and more general interval queries, the sample complexity of any non-adaptive estimator must scale linearly with the search space parameter $λ/σ$, rendering it vastly less sample efficient than our adaptive approach. Finally, we present algorithmic variants that (i) handle an unknown sampling budget, (ii) adapt to an unknown scale parameter $σ$ given (possibly loose) bounds, (iii) require only two stages of adaptivity to achieve order-optimal sample complexity at the expense of more general 1-bit queries, and (iv) leverage multiple local samples per 1-bit query to proportionally reduce communication costs.


翻译:本文研究1比特通信约束下的均值估计问题。我们提出一种基于随机阈值查询的新型自适应均值估计器,其中每个1比特输出指示给定样本是否超过依次选择的阈值。对于任意具有有界均值$μ\in [-λ, λ]$和有界$k$阶中心矩$\mathbb{E}[|X-μ|^k] \le σ^k$(固定$k>1$)的分布,我们的估计器满足$(ε, δ)$-PAC保证。此外,在所有此类尾分布条件下(即每个$k$值),样本复杂度均达到阶数最优。对于$k \neq 2$情形,估计器的样本复杂度匹配未量化极小化下界,并包含不可避免的$O(\log(λ/σ))$定位代价。对于有限方差情形($k=2$),估计器的样本复杂度存在额外的乘性$O(\log(σ/ε))$惩罚项,我们通过建立新的信息论下界证明该惩罚是1比特量化的本质极限。我们还发现显著的适应性差距:对于阈值查询和更一般的区间查询,任何非自适应估计器的样本复杂度必须随搜索空间参数$λ/σ$线性增长,导致其样本效率远低于我们的自适应方法。最后,我们提出若干算法变体,包括:(i)处理未知采样预算的情形,(ii)给定(可能宽松的)边界下自适应未知尺度参数$σ$,(iii)仅需两阶段自适应性即可在牺牲更通用1比特查询的条件下实现阶数最优样本复杂度,(iv)利用每个1比特查询的多个局部样本按比例降低通信成本。

0
下载
关闭预览

相关内容

【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
专知会员服务
26+阅读 · 2021年9月9日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
从最大似然到EM算法:一致的理解方式
PaperWeekly
19+阅读 · 2018年3月19日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
专知会员服务
26+阅读 · 2021年9月9日
相关资讯
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
从最大似然到EM算法:一致的理解方式
PaperWeekly
19+阅读 · 2018年3月19日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员