Federated learning (FL) across multiple HPC facilities faces stochastic admission delays from batch schedulers that dominate wall-clock time. Synchronous FL suffers from severe stragglers, while asynchronous FL accumulates stale updates when queues spike. We propose FedQueue, a queue-aware FL protocol that incorporates scheduler delays directly into training and aggregation, which (i) predicts per-facility queue delays online to budget local work, (ii) applies cutoff-based admission that buffers late arrivals to bound staleness, and (iii) performs staleness-aware aggregation to stabilize heterogeneous local workloads. We prove the convergence for non-convex objectives at rate $\mathcal{O}(1/\sqrt{R})$ under bounded staleness, and show that the admission controls yield bounded staleness with high probability under queue-prediction error. Real-world cross-facility deployment of FedQueue shows 20.5% improvement over baseline algorithms. Controlled queue simulations demonstrate robust improvement over the baselines; in particular, about 34% reduction in time to reach a target accuracy level under high queue variance and non-IID partitions.


翻译:联邦学习(FL)在跨多个HPC设施中面临来自批处理调度器的随机准入延迟,该延迟主导了挂壁时间。同步FL受严重的掉队者问题影响,而异步FL在队列激增时会累积过时更新。我们提出FedQueue,一种队列感知的联邦学习协议,将调度器延迟直接纳入训练与聚合过程,具体包括:(i)在线预测每个设施的队列延迟以预算本地工作量,(ii)应用基于截断的准入机制,缓冲迟到的抵达以限制过时程度,(iii)执行过时感知的聚合以稳定异构本地工作负载。我们证明了非凸目标函数在有限过时条件下的收敛率为$\mathcal{O}(1/\sqrt{R})$,并表明在队列预测误差下,准入控制能以高概率保证有限过时。FedQueue在真实跨设施部署中较基线算法提升20.5%。受控队列仿真表明其相较于基线具有稳健改进;特别是在高队列方差与非独立同分布划分条件下,达到目标精度水平的时间减少约34%。

0
下载
关闭预览

相关内容

联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。
联邦图学习的全面数据中心化综述
专知会员服务
23+阅读 · 2025年7月23日
【剑桥大学博士论文】联邦自监督学习,141页pdf
专知会员服务
19+阅读 · 2024年6月15日
【2022新书】联邦学习:方法和应用的综合概述
专知会员服务
149+阅读 · 2022年7月14日
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
专知会员服务
36+阅读 · 2021年7月9日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【资源】联邦学习相关文献资源大列表
专知
10+阅读 · 2020年2月25日
CCCF专栏 | 联邦学习
中国计算机学会
26+阅读 · 2018年11月19日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员