Traditional statistical methods need to be updated to work with modern distributed data storage paradigms. A common approach is the split-and-conquer framework, which involves learning models on local machines and averaging their parameter estimates. However, this does not work for the important problem of learning finite mixture models, because subpopulation indices on each local machine may be arbitrarily permuted (the "label switching problem"). Zhang and Chen (2022) proposed Mixture Reduction (MR) to address this issue, but MR remains vulnerable to Byzantine failure, whereby a fraction of local machines may transmit arbitrarily erroneous information. This paper introduces Distance Filtered Mixture Reduction (DFMR), a Byzantine tolerant adaptation of MR that is both computationally efficient and statistically sound. DFMR leverages the densities of local estimates to construct a robust filtering mechanism. By analysing the pairwise L2 distances between local estimates, DFMR identifies and removes severely corrupted local estimates while retaining the majority of uncorrupted ones. We provide theoretical justification for DFMR, proving its optimal convergence rate and asymptotic equivalence to the global maximum likelihood estimate under standard assumptions. Numerical experiments on simulated and real-world data validate the effectiveness of DFMR in achieving robust and accurate aggregation in the presence of Byzantine failure.


翻译:传统统计方法需要更新以适应现代分布式数据存储范式。一种常见方法是分治框架,即在本地机器上学习模型并平均其参数估计值。然而,对于学习有限混合模型这一重要问题,该方法并不适用,因为每台本地机器上的子种群索引可能被任意置换(即“标签交换问题”)。张和陈(2022)提出了混合约简(MR)来解决这一问题,但MR仍易受拜占庭故障影响,此时部分本地机器可能传输任意错误信息。本文引入了距离滤波混合约简(DFMR),它是MR的一种拜占庭容错改进版本,兼具计算高效性和统计合理性。DFMR利用局部估计的密度构建稳健的滤波机制。通过分析局部估计之间的成对L2距离,DFMR识别并剔除严重损坏的局部估计,同时保留大多数未损坏的估计。我们为DFMR提供了理论依据,证明了其最优收敛速度,并在标准假设下证明了其与全局最大似然估计的渐近等价性。在模拟数据和真实数据上的数值实验验证了DFMR在存在拜占庭故障时实现稳健且准确聚合的有效性。

0
下载
关闭预览

相关内容

【2024新书】分布式机器学习模式
专知会员服务
90+阅读 · 2024年1月24日
【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
86+阅读 · 2020年5月23日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
122+阅读 · 2019年12月26日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员