Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.


翻译:多智能体大语言模型系统通过角色分工实现了高级推理与工具调用,然而为此类系统进行可靠的强化学习后训练仍具挑战性。本文从理论上指出了将基于群体的强化学习扩展至多智能体大语言模型系统时,训练不稳定的一个关键原因。我们证明,在GRPO风格的优化下,全局归一化基线可能偏离不同智能体的奖励分布,最终导致梯度范数不稳定。基于这一发现,我们提出了Dr. MAS,一种面向多智能体大语言模型系统的简单且稳定的强化学习训练方案。Dr. MAS采用了一种按智能体调整的补救措施:利用每个智能体自身的奖励统计量对其优势函数进行归一化,从而校准梯度尺度,并在理论和实验上显著稳定了训练。除了算法本身,Dr. MAS还为多智能体大语言模型系统提供了一个端到端的强化学习训练框架,支持可扩展的编排、灵活的按智能体大语言模型服务与优化配置,以及大语言模型执行器后端的共享资源调度。我们在多智能体数学推理和多轮搜索基准测试上,使用Qwen2.5和Qwen3系列模型对Dr. MAS进行了评估。Dr. MAS相比原始GRPO取得了显著提升(例如,在数学任务上平均提升5.6%(avg@16)和4.6%(pass@16),在搜索任务上平均提升15.2%(avg@16)和13.1%(pass@16)),同时基本消除了梯度尖峰。此外,即使在异构的智能体-模型分配下,它仍能保持高效且有效。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
39+阅读 · 2025年4月18日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员