DistFlow: A Fully Distributed RL Framework for Scalable and Efficient LLM Post-Training - 专知论文

会员服务 ·

0

调度 · 扩展性 · 可扩展性 · 后训练 · 大语言模型 ·

DistFlow: A Fully Distributed RL Framework for Scalable and Efficient LLM Post-Training

翻译：DistFlow：一种用于可扩展且高效LLM后训练的完全分布式RL框架

Zhixin Wang,Jiaming Xu,Tianyi Zhou,Mingjun Zhang,Liming Liu,Jiarui Hu,Dian Yang,Tongyu Wang,Ping Zhang,Jinlong Hou,Siyuan Feng,Yuan Qi,Yuan Cheng

Effectively scaling Reinforcement Learning (RL) is crucial for enhancing the reasoning and alignment of Large Language Models. The massive data and complex execution flows inherent in these tasks require a distributed architecture capable of efficient scaling. However, to simplify programming and dependency management, mainstream frameworks often rely on a centralized architecture where a single node dispatches both control and data. This inherent coupling creates significant communication bottlenecks, severely limiting system scalability and efficiency. We present DISTFLOW, a novel, fully distributed RL framework that adopts a multi-controller paradigm. By decoupling data transmission from control dispatch, DISTFLOW establishes a parallelism-aware, decentralized Data Coordinator that leverages local caching, load balancing, and asynchronous double buffer to minimize communication overhead and mitigate straggler effects. For control logic, it introduces a task scheduler built upon Directed Acyclic Graph (DAG) that facilitates fine-grained, independent execution. Experimental results demonstrate that DISTFLOW achieves near-linear scalability up to 512 GPUs and delivers up to a 2.63x throughput improvement over state-of-the-art (SOTA) frameworks. The source code is available at: https://github.com/sii-research/siiRL.

翻译：有效扩展强化学习（RL）对于增强大型语言模型的推理能力与对齐效果至关重要。这些任务中蕴含的海量数据与复杂执行流程，需要一种能够高效扩展的分布式架构。然而，为简化编程和依赖管理，主流框架通常依赖集中式架构——由单一节点同时调度控制与数据。这种固有关联性造成了显著的通信瓶颈，严重限制了系统的可扩展性与效率。我们提出了DISTFLOW，一种全新的完全分布式RL框架，采用多控制器范式。通过将数据传输与控制调度解耦，DISTFLOW构建了一种具备并行感知能力的去中心化数据协调器，该协调器利用本地缓存、负载均衡与异步双缓冲机制，最小化通信开销并缓解掉队效应。对于控制逻辑，它引入了一种基于有向无环图（DAG）的任务调度器，支持细粒度的独立执行。实验结果表明，DISTFLOW在512块GPU上实现了近乎线性的可扩展性，与当前最优（SOTA）框架相比，吞吐量提升高达2.63倍。源代码已发布于：https://github.com/sii-research/siiRL。

0

相关内容

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

23+阅读 · 6月24日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

39+阅读 · 2025年9月23日

大语言模型的强化学习技术综述

大语言模型的强化学习技术综述

专知会员服务

42+阅读 · 2025年7月8日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

57+阅读 · 2023年8月12日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

67+阅读 · 2022年11月9日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

RIDGECUT: Learning Graph Partitioning with Rings and Wedges

Arxiv

0+阅读 · 6月13日

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

Arxiv

0+阅读 · 6月12日

StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

Arxiv

0+阅读 · 6月12日

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Rethinking the Divergence Regularization in LLM RL

Arxiv

0+阅读 · 6月8日

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Arxiv

0+阅读 · 5月26日

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Arxiv

0+阅读 · 5月24日

Efficient Distributed MLLM Training with Cornstarch

Arxiv

0+阅读 · 5月24日

PlexRL: Cluster-Level Orchestration of Serviceized LLM Execution for RLVR

Arxiv

0+阅读 · 5月20日

PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

23+阅读 · 6月24日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

39+阅读 · 2025年9月23日

大语言模型的强化学习技术综述

大语言模型的强化学习技术综述

专知会员服务

42+阅读 · 2025年7月8日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

57+阅读 · 2023年8月12日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

67+阅读 · 2022年11月9日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

RIDGECUT: Learning Graph Partitioning with Rings and Wedges

Arxiv

0+阅读 · 6月13日

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

Arxiv

0+阅读 · 6月12日

StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

Arxiv

0+阅读 · 6月12日

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Rethinking the Divergence Regularization in LLM RL

Arxiv

0+阅读 · 6月8日

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Arxiv

0+阅读 · 5月26日

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Arxiv

0+阅读 · 5月24日

Efficient Distributed MLLM Training with Cornstarch

Arxiv

0+阅读 · 5月24日

PlexRL: Cluster-Level Orchestration of Serviceized LLM Execution for RLVR

Arxiv

0+阅读 · 5月20日

PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning

Arxiv

0+阅读 · 5月18日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员