Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning approaches rely on predefined execution protocols, which often require centralized execution. Decentralized LLM collaboration is more appealing in practice, as agents can run inference in parallel with flexible deployments. Also, current approaches use Monte Carlo methods for fine-tuning, which suffer from high variance and thus require more samples to train effectively. Actor-critic methods are prevalent in MARL for dealing with these issues, so we developed Multi-Agent Actor-Critic (MAAC) methods to optimize decentralized LLM collaboration. In this paper, we analyze when and why these MAAC methods are beneficial. We propose 2 MAAC approaches, \textbf{CoLLM-CC} with a \textbf{C}entralized \textbf{C}ritic and \textbf{CoLLM-DC} with \textbf{D}ecentralized \textbf{C}ritics. Our experiments across writing, coding, and game-playing domains show that Monte Carlo methods and CoLLM-DC can achieve performance comparable to CoLLM-CC in short-horizon and dense-reward settings. However, they both underperform CoLLM-CC on long-horizon or sparse-reward tasks, where Monte Carlo methods require substantially more samples and CoLLM-DC struggles to converge. Our code is available at https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2.


翻译:近期研究探索了通过多智能体强化学习优化大语言模型协作。然而,多数基于MARL的微调方法依赖预定义执行协议,通常需要集中式执行。去中心化LLM协作在实践中更具吸引力,因为智能体能够以灵活部署方式并行执行推理。此外,当前方法采用蒙特卡洛方法进行微调,存在高方差问题,因此需要更多样本才能有效训练。演员-评论家方法在MARL中普遍用于处理此类问题,为此我们开发了多智能体演员-评论家方法以优化去中心化LLM协作。本文分析了这些MAAC方法何时及为何有效。我们提出两种MAAC方案:采用集中式评论家的\textbf{CoLLM-CC}与采用去中心化评论家的\textbf{CoLLM-DC}。我们在写作、编程和游戏博弈领域的实验表明,在短周期和密集奖励场景中,蒙特卡洛方法与CoLLM-DC能达到与CoLLM-CC相当的性能。但在长周期或稀疏奖励任务中,两者均表现不及CoLLM-CC——蒙特卡洛方法需要显著更多样本,而CoLLM-DC则难以收敛。代码发布于https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2。

0
下载
关闭预览

相关内容

面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
32+阅读 · 2025年5月16日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 2025年3月4日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员