Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization - 专知论文

会员服务 ·

0

协同 · 增强型 · 智能体 · 协作 · 编程 ·

2025 年 12 月 31 日

Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization

翻译：强化学习增强型LLM智能体用于协同决策与性能优化

Dong Qiu,Duo Xu,Limengxi Yue

from arxiv, Accepted by IEEE ICFTIC 2025

Large Language Models (LLMs) perform well in language tasks but often lack collaborative awareness and struggle to optimize global performance in multi-agent settings. We present a reinforcement learning-augmented LLM agent framework that formulates cooperation as a decentralized partially observable Markov decision process (Dec-POMDP) and adopts centralized training with decentralized execution (CTDE). We introduce Group Relative Policy Optimization (GRPO) to jointly optimize agent policies with access to global signals during training, together with a simplified joint reward that balances task quality, speed, and coordination cost. On collaborative writing and coding benchmarks, our framework delivers a 3x increase in task processing speed over single-agent baselines, 98.7% structural/style consistency in writing, and a 74.6% test pass rate in coding. The approach consistently outperforms strong multi-agent LLM baselines and provides a practical path toward reliable collaboration in complex workflows.

翻译：大型语言模型（LLM）在语言任务中表现出色，但通常缺乏协同意识，且在多智能体环境中难以优化全局性能。本文提出一种强化学习增强型LLM智能体框架，将协作建模为去中心化部分可观测马尔可夫决策过程（Dec-POMDP），并采用集中训练与分散执行（CTDE）机制。我们引入群体相对策略优化（GRPO）方法，通过在训练期间利用全局信号联合优化智能体策略，同时设计简化的联合奖励函数以平衡任务质量、处理速度与协调成本。在协同写作与编程基准测试中，本框架相比单智能体基线实现了任务处理速度3倍提升，写作任务中达到98.7%的结构/风格一致性，编程任务中获得74.6%的测试通过率。该方法持续优于现有强大多智能体LLM基线，为复杂工作流中的可靠协作提供了实用路径。

0

相关内容

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

专知会员服务

19+阅读 · 1月2日

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

专知会员服务

25+阅读 · 2025年12月18日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

39+阅读 · 2025年9月23日

面向大语言模型的智能体化强化学习图景：综述

面向大语言模型的智能体化强化学习图景：综述

专知会员服务

56+阅读 · 2025年9月3日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

57+阅读 · 2024年8月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

LLM Agents for Education: Advances and Applications

Arxiv

0+阅读 · 2月4日

Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

Arxiv

0+阅读 · 2月4日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

Arxiv

0+阅读 · 1月29日

SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling

Arxiv

0+阅读 · 1月27日

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

Arxiv

0+阅读 · 1月26日

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Arxiv

0+阅读 · 1月24日

LLM Agents in Law: Taxonomy, Applications, and Challenges

Arxiv

5+阅读 · 1月8日

Multi-Agent LLM Orchestration Achieves Deterministic, High-Quality Decision Support for Incident Response

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

最新内容

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

3+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

10+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

15+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

相关VIP内容

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

专知会员服务

19+阅读 · 1月2日

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

专知会员服务

25+阅读 · 2025年12月18日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

39+阅读 · 2025年9月23日

面向大语言模型的智能体化强化学习图景：综述

面向大语言模型的智能体化强化学习图景：综述

专知会员服务

56+阅读 · 2025年9月3日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

57+阅读 · 2024年8月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的自动化红队测试》

“天降毒雾”：无人机如何使化学战重返乌克兰战场

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

LLM Agents for Education: Advances and Applications

Arxiv

0+阅读 · 2月4日

Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

Arxiv

0+阅读 · 2月4日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

Arxiv

0+阅读 · 1月29日

SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling

Arxiv

0+阅读 · 1月27日

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

Arxiv

0+阅读 · 1月26日

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Arxiv

0+阅读 · 1月24日

LLM Agents in Law: Taxonomy, Applications, and Challenges

Arxiv

5+阅读 · 1月8日

Multi-Agent LLM Orchestration Achieves Deterministic, High-Quality Decision Support for Incident Response

Arxiv

0+阅读 · 1月7日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员