Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning approaches rely on predefined execution protocols, which often require centralized execution. Decentralized LLM collaboration is more appealing in practice, as agents can run inference in parallel with flexible deployments. Also, current approaches use Monte Carlo methods for fine-tuning, which suffer from high variance and thus require more samples to train effectively. Actor-critic methods are prevalent in MARL for dealing with these issues, so we developed Multi-Agent Actor-Critic (MAAC) methods to optimize decentralized LLM collaboration. In this paper, we analyze when and why these MAAC methods are beneficial. We propose 2 MAAC approaches, \textbf{CoLLM-CC} with a \textbf{C}entralized \textbf{C}ritic and \textbf{CoLLM-DC} with \textbf{D}ecentralized \textbf{C}ritics. Our experiments across writing, coding, and game-playing domains show that Monte Carlo methods and CoLLM-DC can achieve performance comparable to CoLLM-CC in short-horizon and dense-reward settings. However, they both underperform CoLLM-CC on long-horizon or sparse-reward tasks, where Monte Carlo methods require substantially more samples and CoLLM-DC struggles to converge. Our code is available at https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.6.


翻译:近期研究探索了通过多智能体强化学习优化大语言模型协作。然而,大多数基于多智能体强化学习的微调方法依赖于预定义执行协议,通常需要集中式执行。分散式大语言模型协作在实践中更具吸引力,因为智能体可通过灵活部署实现并行推理。此外,现有方法采用蒙特卡洛方法进行微调,存在高方差问题,导致有效训练需要更多样本。演员-评论家方法在处理此类问题时广泛应用于多智能体强化学习领域,为此我们开发了多智能体演员-评论家方法以优化分散式大语言模型协作。本文系统分析了这些方法何时及为何有效,提出了两种多智能体演员-评论家方案:采用集中式评论家的 \textbf{CoLLM-CC} 与采用分散式评论家的 \textbf{CoLLM-DC}。我们在写作、编程和游戏博弈领域的实验表明:在短周期与密集奖励场景中,蒙特卡洛方法与 CoLLM-DC 能达到与 CoLLM-CC 相当的性能;但在长周期或稀疏奖励任务中,两者均表现不佳——蒙特卡洛方法需要显著更多训练样本,而 CoLLM-DC 则难以收敛。代码已发布于 https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.6。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
32+阅读 · 2025年5月16日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
39+阅读 · 2025年4月18日
多智能体协作机制:大语言模型综述
专知会员服务
84+阅读 · 2025年1月14日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员