In large-scale reinforcement learning (RL) systems with decoupled Trainer-Rollout execution, the Trainer must regularly synchronize policy weights to the Rollout side to limit policy staleness. When inter-node bandwidth is abundant, such synchronization is usually only a small fraction of end-to-end cost. As model size grows, however, the communication demand rises rapidly. In bandwidth-constrained or network-variable deployments -- for example, cross-datacenter or cross-cluster settings, heterogeneous resource pools, and online RL -- weight synchronization can become a dominant bottleneck for throughput and tail latency. We observe that, in mainstream large-model RL training, the locations where parameters actually change are highly sparse at the element level (often 99%+ sparsity). Building on this observation, we propose and implement SparseRL-Sync, which replaces full-weight transfers with a lossless sparse update payload (indices and values) that can be exactly reconstructed on the inference side, thereby preserving 100% fidelity. Under a simplified cost model, sparse synchronization reduces the per-update communication volume from S to approximately S/X; with 99% sparsity (X ~ 100), this yields about a 100x reduction in transmitted data. Combined with appropriate bucketing, SparseRL-Sync also reduces launch and control-plane overhead, significantly improving scalability and end-to-end efficiency in bandwidth-limited and highly asynchronous RL settings.


翻译:在采用解耦式训练-推演执行架构的大规模强化学习系统中,训练端必须定期向推演端同步策略权重以限制策略陈旧性。当节点间带宽充裕时,此类同步通常仅占端到端开销的一小部分。然而随着模型规模增长,通信需求急剧上升。在带宽受限或网络波动部署场景下——例如跨数据中心或跨集群环境、异构资源池及在线强化学习——权重同步可能成为吞吐量和尾部延迟的主要瓶颈。我们观察到,主流大规模模型强化学习训练中参数实际发生变更的位置在元素层级高度稀疏(通常可达99%以上稀疏度)。基于此发现,我们提出并实现了SparseRL-Sync,以无损稀疏更新负载(索引与数值)替代完整权重传输,该负载可在推理侧精确重构,从而保持100%保真度。在简化成本模型下,稀疏同步将每次更新的通信量从S缩减至约S/X;当稀疏度为99%(X≈100)时,传输数据量降低约百倍。结合适当的分桶策略,SparseRL-Sync还可降低启动及控制平面开销,显著提升带宽受限与高度异步强化学习场景下的可扩展性与端到端效率。

0
下载
关闭预览

相关内容

【CMU博士论文】通信高效且差分隐私的优化方法
专知会员服务
16+阅读 · 2025年8月2日
【ICML2024】SAPG:分裂与聚合策略梯度
专知会员服务
19+阅读 · 2024年7月30日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
36+阅读 · 2020年7月5日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
半监督深度学习小结:类协同训练和一致性正则化
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员