OrchestrRL: Dynamic Compute and Network Orchestration for Disaggregated RL - 专知论文

会员服务 ·

0

解耦 · 负载 · 系统 · 光电 · 强化学习 ·

OrchestrRL: Dynamic Compute and Network Orchestration for Disaggregated RL

翻译：OrchestrRL：面向解耦强化学习的动态计算与网络编排

Xin Tan,Yicheng Feng,Yu Zhou,Yimin Jiang,Yibo Zhu,Hong Xu

Disaggregating the generation and training stages in RL is widely adopted to scale LLM post-training. There are two critical challenges here. First, the generation stage often becomes a bottleneck due to dynamic workload shifts and severe execution imbalances. Second, the decoupled stages result in diverse and dynamic network traffic patterns that strain the conventional static fabric. We build OrchestrRL to orchestrate dynamically both compute and network in disaggregated RL. OrchestrRL employs an adaptive compute scheduler that adjusts parallelism configuration to match changing workload characteristics within and across generation steps. OrchestrRL adopts a reconfigurable optical-electrical fabric called RFabric: It leverages optical circuit switches to reconfigure the aggregation and core layers of the topology on demand, tailoring bandwidth resources to the unique communication patterns across various phases of training, generation, and weight synchronization. Evaluated on a 64-H800 GPU testbed, OrchestrRL demonstrates up to a 1.42x throughput improvement over static baselines. Using a high-fidelity simulator, we also show that RFabric achieves superior performance-cost efficiency at scale over static Fat-Tree networks.

翻译：在强化学习中解耦生成阶段与训练阶段已被广泛采用以扩展大语言模型的后训练规模。这一范式面临两大关键挑战：首先，由于动态工作负载偏移与严重的执行不均衡，生成阶段常成为系统瓶颈；其次，解耦的多个阶段会产生多样且动态的网络流量模式，对传统静态网络架构造成巨大压力。为此，我们构建了OrchestrRL系统，对解耦强化学习中的计算与网络资源进行动态协同编排。OrchestrRL采用自适应计算调度器，可根据生成步骤内及跨步骤间变化的工作负载特征动态调整并行配置。同时，OrchestrRL部署了名为RFabric的可重构光电混合网络架构：该架构利用光电路交换机按需重构拓扑的汇聚层与核心层，使带宽资源能够精准适配训练、生成及权重同步等不同阶段的独特通信模式。在64卡H800 GPU测试平台上进行评估，OrchestrRL相比静态基线方案实现了最高1.42倍的吞吐量提升。通过高保真仿真实验，我们进一步证明RFabric在大规模场景下相比静态胖树网络具有更优的性能-成本效益。

0

相关内容

Transformer增强强化学习：通信网络基础与应用综述

Transformer增强强化学习：通信网络基础与应用综述

专知会员服务

12+阅读 · 6月7日

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

12+阅读 · 5月13日

面向强化学习的可解释性研究综述

面向强化学习的可解释性研究综述

专知会员服务

44+阅读 · 2024年7月30日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

专知会员服务

158+阅读 · 2022年8月20日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

要上手RL？406页《深度强化学习》2022新书，Leiden大学Aske Plaat教授主讲

要上手RL？406页《深度强化学习》2022新书，Leiden大学Aske Plaat教授主讲

专知会员服务

133+阅读 · 2022年1月11日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

PyTorch实现多种深度强化学习算法

PyTorch实现多种深度强化学习算法

专知

36+阅读 · 2019年1月15日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

奇异耦合网络的动力学分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络解析的低压切负荷在线决策方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Arxiv

0+阅读 · 4月29日

DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training

Arxiv

0+阅读 · 4月29日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

Arxiv

0+阅读 · 4月13日

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs

Arxiv

0+阅读 · 4月8日

Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning

Arxiv

0+阅读 · 4月3日

UniScale: Synergistic Entire Space Data and Model Scaling for Search Ranking

Arxiv

0+阅读 · 3月27日

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Arxiv

0+阅读 · 3月24日

Arena: Efficiently Training Large Models via Dynamic Scheduling and Adaptive Parallelism Co-Design

Arxiv

0+阅读 · 3月24日

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Arxiv

0+阅读 · 3月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

Transformer增强强化学习：通信网络基础与应用综述

Transformer增强强化学习：通信网络基础与应用综述

专知会员服务

12+阅读 · 6月7日

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

12+阅读 · 5月13日

面向强化学习的可解释性研究综述

面向强化学习的可解释性研究综述

专知会员服务

44+阅读 · 2024年7月30日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

专知会员服务

158+阅读 · 2022年8月20日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

要上手RL？406页《深度强化学习》2022新书，Leiden大学Aske Plaat教授主讲

要上手RL？406页《深度强化学习》2022新书，Leiden大学Aske Plaat教授主讲

专知会员服务

133+阅读 · 2022年1月11日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

PyTorch实现多种深度强化学习算法

PyTorch实现多种深度强化学习算法

专知

36+阅读 · 2019年1月15日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Arxiv

0+阅读 · 4月29日

DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training

Arxiv

0+阅读 · 4月29日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

Arxiv

0+阅读 · 4月13日

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs

Arxiv

0+阅读 · 4月8日

Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning

Arxiv

0+阅读 · 4月3日

UniScale: Synergistic Entire Space Data and Model Scaling for Search Ranking

Arxiv

0+阅读 · 3月27日

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Arxiv

0+阅读 · 3月24日

Arena: Efficiently Training Large Models via Dynamic Scheduling and Adaptive Parallelism Co-Design

Arxiv

0+阅读 · 3月24日

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Arxiv

0+阅读 · 3月5日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

奇异耦合网络的动力学分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络解析的低压切负荷在线决策方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员