Probabilistic Synchronous Parallel (PSP) is a technique in distributed learning systems to reduce synchronization bottlenecks by sampling a subset of participating nodes per round. In Federated Learning (FL), where edge devices are often unreliable due to factors including mobility, power constraints, and user activity, PSP helps improve system throughput. However, PSP has a key limitation: it assumes device behavior is static and different devices are independent. This can lead to unfair distributed synchronization, due to highly available nodes dominating training while those that are often unavailable rarely participate and so their data may be missed. If both data distribution and node availability are simultaneously correlated with the device, then both PSP and standard FL algorithms will suffer from persistent under-representation of certain classes or groups resulting in inefficient or ineffective learning of certain features. We introduce Availability-Weighted PSP (AW-PSP), an extension to PSP that addresses the issue of co-correlation of unfair sampling and data availability by dynamically adjusting node sampling probabilities using real-time availability predictions, historical behavior, and failure correlation metrics. A Markov-based availability predictor distinguishes transient \emph{vs} chronic failures, while a Distributed Hash Table (DHT) layer decentralizes metadata, including latency, freshness, and utility scores. We implement AW-PSP and trace-driven evaluation shows that it improves robustness to both independent and correlated failures, increases label coverage, and reduces fairness variance compared to standard PSP. AW-PSP thus provides an availability-aware, and fairness-conscious node sampling protocol for FL deployments that will scale to large numbers of nodes even in heterogeneous and failure-prone environments.


翻译:概率同步并行(PSP)是一种分布式学习系统中通过每轮采样部分参与节点以降低同步瓶颈的技术。在联邦学习(FL)中,由于边缘设备常因移动性、电力约束及用户活动等因素不可靠,PSP有助于提升系统吞吐量。然而,PSP存在一个关键局限:它假设设备行为是静态的,且不同设备相互独立。这可能导致不均衡的分布式同步——高可用节点主导训练过程,而频繁不可用节点极少参与,其数据可能被忽略。若数据分布与节点可用性同时与设备相关联,则PSP及标准FL算法均将遭受特定类别或群体的持续性欠表示,导致某些特征的学习效率低下甚至无效。我们提出可用性加权概率同步并行(AW-PSP),这是PSP的扩展方法,通过利用实时可用性预测、历史行为及故障关联度动态调整节点采样概率,解决非公平采样与数据可用性之间的共关联问题。基于马尔可夫链的可用性预测器可区分瞬时性与慢性故障,而分布式哈希表(DHT)层则对延迟、新鲜度及效用评分等元数据进行去中心化管理。我们实现了AW-PSP,基于真实数据驱动的评估表明:相比标准PSP,AW-PSP在独立故障与关联故障下的鲁棒性均得到提升,标签覆盖率增加,公平性方差减小。因此,AW-PSP为联邦学习部署提供了兼具可用性感知与公平意识的节点采样协议,即使面对异构且易故障环境,也能扩展至大规模节点集群。

0
下载
关闭预览

相关内容

移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
鲁棒和隐私保护的协同学习
专知会员服务
38+阅读 · 2021年12月22日
专知会员服务
26+阅读 · 2021年4月13日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
【资源】联邦学习相关文献资源大列表
专知
10+阅读 · 2020年2月25日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员