FedQueue: Queue-Aware Federated Learning for Cross-Facility HPC Training

Federated learning (FL) across multiple HPC facilities faces stochastic admission delays from batch schedulers that dominate wall-clock time. Synchronous FL suffers from severe stragglers, while asynchronous FL accumulates stale updates when queues spike. We propose FedQueue, a queue-aware FL protocol that incorporates scheduler delays directly into training and aggregation, which (i) predicts per-facility queue delays online to budget local work, (ii) applies cutoff-based admission that buffers late arrivals to bound staleness, and (iii) performs staleness-aware aggregation to stabilize heterogeneous local workloads. We prove the convergence for non-convex objectives at rate $\mathcal{O}(1/\sqrt{R})$ under bounded staleness, and show that the admission controls yield bounded staleness with high probability under queue-prediction error. Real-world cross-facility deployment of FedQueue shows 20.5% improvement over baseline algorithms. Controlled queue simulations demonstrate robust improvement over the baselines; in particular, up to 60% reduction in time to reach a target accuracy level under high queue variance and non-IID partitions.

翻译：联邦学习（FL）在跨多个高性能计算设施中面临批处理调度器带来的随机准入延迟，该延迟主导了挂钟时间。同步FL受严重掉队者问题困扰，而异步FL在队列激增时会累积过时更新。我们提出FedQueue——一种队列感知的联邦学习协议，其将调度器延迟直接纳入训练与聚合过程，具体而言：(i) 在线预测每个设施的队列延迟以预算本地工作量，(ii) 采用基于截止值的准入机制缓冲延迟到达者以限制过时性，(iii) 执行过时感知的聚合以稳定异构本地工作负载。我们证明了在有限过时性条件下非凸目标以$\mathcal{O}(1/\sqrt{R})$速率收敛，并表明在队列预测误差下准入控制能以高概率保证有限过时性。FedQueue在实际跨设施部署中相较基线算法提升20.5%性能。受控队列模拟实验表明其对基线算法具有稳健改进；特别是在队列高度波动和非独立同分布分区条件下，达到目标精度水平的时间最多可减少60%。

相关内容

联邦学习

关注 200

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

《联邦学习在网络安全中的应用：性能、鲁棒性与对抗性威胁》2025最新145页

专知会员服务

20+阅读 · 2025年9月18日

联邦图学习的全面数据中心化综述

专知会员服务

23+阅读 · 2025年7月23日

【剑桥大学博士论文】联邦自监督学习，141页pdf

专知会员服务

19+阅读 · 2024年6月15日