Synchronous federated learning scales poorly due to the straggler effect. Asynchronous algorithms increase the update throughput by processing updates upon arrival, but they introduce two fundamental challenges: gradient staleness, which degrades convergence, and bias toward faster clients under heterogeneous data distributions. Although algorithms such as AsyncSGD and Generalized AsyncSGD mitigate this bias via client-side task queues, most existing analyses neglect the underlying queueing dynamics and lack closed-form characterizations of the update throughput and gradient staleness. To close this gap, we develop a stochastic queueing-network framework for Generalized AsyncSGD that jointly models random computation times at the clients and the central server, as well as random uplink and downlink communication delays. Leveraging product-form network theory, we derive a closed-form expression for the update throughput, alongside closed-form upper bounds for both the communication round complexity and the expected wall-clock time required to reach an $ε$-stationary point. These results formally characterize the trade-off between gradient staleness and wall-clock convergence speed. We further extend the framework to quantify energy consumption under stochastic timing, revealing an additional trade-off between convergence speed and energy efficiency. Building on these analytical results, we propose gradient-based optimization strategies to jointly optimize routing and concurrency. Experiments on EMNIST demonstrate reductions of 29%--46% in convergence time and 36%--49% in energy consumption compared to AsyncSGD.


翻译:同步联邦学习因掉队者效应而扩展性不佳。异步算法通过随到随处理更新来提高更新吞吐量,但却引入了两个基本挑战:梯度陈旧性会降低收敛速度,而在异构数据分布下会产生对较快客户端的偏向。尽管诸如AsyncSGD和Generalized AsyncSGD等算法通过客户端任务队列减轻了这种偏向,但现有分析大多忽略了底层的排队动态,并且缺乏对更新吞吐量和梯度陈旧性的闭式刻画。为弥补这一空白,我们为Generalized AsyncSGD开发了一个排队网络框架,该框架联合建模了客户端和中心服务器的随机计算时间,以及随机上行和下行通信延迟。利用乘积形式网络理论,我们推导出更新吞吐量的闭式表达式,以及达到$\varepsilon$稳定点所需的通信轮数复杂度和期望挂钟时间的闭式上界。这些结果形式化地刻画了梯度陈旧性与挂钟收敛速度之间的权衡。我们进一步将该框架扩展到量化随机时序下的能耗,揭示了收敛速度与能效之间的另一个权衡。基于这些分析结果,我们提出了基于梯度的优化策略,以联合优化路由和并发性。在EMNIST上的实验表明,与AsyncSGD相比,收敛时间减少了29%--46%,能耗减少了36%--49%。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
异构联邦学习在无人系统中的研究综述
专知会员服务
12+阅读 · 2025年5月25日
【干货书】分布式机器学习的优化算法,137页pdf
专知会员服务
74+阅读 · 2022年12月14日
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
专知会员服务
75+阅读 · 2020年12月7日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员