Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.


翻译:强化学习是大语言模型后训练阶段的关键环节,涉及推演生成、奖励评估与集中式学习之间的反复交互。分布式推演执行为利用更具成本效益的推理资源提供了机会,但也带来了广域协调与策略传播方面的挑战。本文提出ECHO-2,一种支持远程推理工作节点且具有不可忽略传播延迟的后训练分布式强化学习框架。ECHO-2将集中式学习与分布式推演相结合,将有界策略陈旧度作为用户可控参数,使得推演生成、策略传播与模型训练能够重叠执行。我们提出一种基于重叠执行的容量模型,该模型关联了训练时间、传播延迟与推演吞吐量,并推导出维持学习器利用率的实用资源配置规则。为缓解传播瓶颈并降低成本,ECHO-2采用对等辅助流水线广播机制及异构工作节点的成本感知激活策略。在真实广域带宽环境下对4B与8B模型进行GRPO后训练的实验中,ECHO-2在保持与强基线相当的强化学习奖励的同时,显著提升了成本效益。

0
下载
关闭预览

相关内容

Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
208+阅读 · 2020年5月22日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
73+阅读 · 2020年3月22日
【MIT博士论文】数据高效强化学习,176页pdf
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员