As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions. Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision. We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.


翻译:随着大语言模型(LLM)智能体从孤立的工具使用者演变为协调协作的团队,强化学习(RL)不仅需要优化个体行为,还必须优化任务如何被生成、委派、通信、聚合和终止。本文通过编排轨迹研究基于LLM的多智能体系统的强化学习:编排轨迹是时间交互图,其事件包括子智能体生成、委派、通信、工具使用、返回、聚合和停止决策。以此视角,我们识别出三个技术维度。首先,奖励设计涵盖八个族类,包括用于并行加速、拆分正确性和聚合质量的编排奖励。其次,奖励和信用信号附着于从令牌到团队的八个信用或信号承载单元;在我们整理的文献池中,显式的反事实消息级信用分布仍然尤为稀疏。第三,编排学习分解为五个子决策:何时生成、委派给谁、如何通信、如何聚合以及何时停止。截至2026年5月4日,在我们整理的文献池中,未发现针对停止决策的显式RL训练方法。我们将学术方法与来自Kimi Agent Swarm、OpenAI Codex和Anthropic Claude Code的公开工业证据进行关联。由此产生的规模差距,是指公开报告的部署环境与开放性学术评估体系之间的差距,而非对工业训练轨迹的独立验证。我们在https://github.com/xxzcc/awesome-llm-mas-rl发布相关工件,包括含84条标记论文的文献池、32条排除记录日志、脚本化语料统计,以及用于可重放编排轨迹的简明JSON模式。

0
下载
关闭预览

相关内容

大语言模型智能体强化学习:全景综述
专知会员服务
50+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
65+阅读 · 2024年6月9日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员