Agentic reinforcement learning (RL) has emerged as a transformative workload in cloud clusters, enabling large language models (LLMs) to solve complex problems through interactions with real world. However, unlike traditional RL, agentic RL demands substantial external cloud resources, e.g., CPUs for code execution and GPUs for reward models, that exist outside the primary training cluster. Existing agentic RL framework typically rely on static over-provisioning, i.e., resources are often tied to long-lived trajectories or isolated by tasks, which leads to severe resource inefficiency. We propose the action-level orchestration, and incorporate it into ARL-Tangram, a unified resource management system that enables fine-grained external resource sharing and elasticity. ARL-Tangram utilizes a unified action-level formulation and an elastic scheduling algorithm to minimize action completion time (ACT) while satisfying heterogeneous resource constraints. Further, heterogeneous resource managers are tailored to efficiently support the action-level execution on resources with heterogeneous characteristics and topologies. Evaluation on real-world agentic RL tasks demonstrates that ARL-Tangram improves average ACT by up to 4.3$\times$, speeds up the step duration of RL training by up to 1.5$\times$, and saves the external resources by up to 71.2$\%$. This system has been deployed to support the training of the MiMo series models.


翻译:智能体强化学习已成为云集群中的一种变革性工作负载,它使大型语言模型能够通过与现实世界交互来解决复杂问题。然而,与传统强化学习不同,智能体强化学习需要大量存在于主训练集群之外的外部云资源,例如用于代码执行的CPU和用于奖励模型的GPU。现有的智能体强化学习框架通常依赖于静态的超量供应,即资源通常与长生命周期的轨迹绑定或被任务隔离,这导致了严重的资源低效。我们提出了动作级编排方法,并将其融入ARL-Tangram——一个实现细粒度外部资源共享与弹性的统一资源管理系统。ARL-Tangram利用统一的动作级表述和弹性调度算法,在满足异构资源约束的同时最小化动作完成时间。此外,系统定制了异构资源管理器,以高效支持在具有异构特性与拓扑结构的资源上进行动作级执行。在真实世界智能体强化学习任务上的评估表明,ARL-Tangram将平均动作完成时间提升高达4.3倍,将强化训练的单步时长加速高达1.5倍,并节省高达71.2%的外部资源。该系统已部署用于支持MiMo系列模型的训练。

0
下载
关闭预览

相关内容

美国陆军研究实验室(The U.S. Army Combat Capabilities Development Command Army Research Laboratory,ARL)是美国陆军的研究实验室,其总部位于马里兰州阿德菲的阿德菲实验室中心。该实验室于1992年启动,其谱系可追溯到19世纪初。2002年,ARL并入美国陆军研究、发展和工程司令部。2019年1月,RDECOM被指定为美国陆军作战能力发展司令部、陆军未来司令部,并被指定为美国陆军作战能力发展司令部(DEVCOM)陆军研究实验室。ARL主要进行基础研究以支持美国陆军现代化,并长期专注于颠覆性科学和技术,开展研究以解答未来陆军能力中最棘手的科技问题。ARL的主要研究领域包括生物和生物技术科学、电磁频谱科学、能源科学、机械科学、军事信息科学、网络和计算科学、光子学、电子学和量子科学、极端材料科学、终端效应和武器科学等。
KARL:基于强化学习的知识智能体
专知会员服务
12+阅读 · 3月7日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
【ICML2022】分支强化学习
专知会员服务
44+阅读 · 2022年7月22日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员