Multi-agent reinforcement learning (MARL) is crucial for AI systems that operate collaboratively in distributed and adversarial settings, particularly in multi-domain operations (MDO). A central challenge in cooperative MARL is determining how agents should coordinate: existing approaches must either hand-specify graph topology, rely on proximity-based heuristics, or learn structure entirely from environment interaction; all of which are brittle, semantically uninformed, or data-intensive. We investigate whether large language models (LLMs) can generate useful coordination graph priors for MARL by using minimal natural language descriptions of agent observations to infer latent coordination patterns. These priors are integrated into MARL algorithms via graph convolutional layers within a graph neural network (GNN)-based pipeline, and evaluated on four cooperative scenarios from the Multi-Agent Particle Environment (MPE) benchmark against baselines spanning the full spectrum of coordination modeling, from independent learners to state-of-the-art graph-based methods. We further ablate across five compact open-source LLMs to assess the sensitivity of prior quality to model choice. Our results provide the first quantitative evidence that LLM-derived graph priors can enhance coordination and adaptability in dynamic multi-agent environments, and demonstrate that models as small as 1.5B parameters are sufficient for effective prior generation.


翻译:多智能体强化学习对于在分布式和对抗性环境中协同运作的人工智能系统至关重要,特别是在多域作战场景中。协同多智能体强化学习的核心挑战在于确定智能体应如何协调:现有方法要么需要手动指定图拓扑结构,要么依赖基于距离的启发式规则,要么完全通过环境交互来学习结构——这些方法都存在鲁棒性差、缺乏语义信息或数据需求庞大的问题。本文探究是否可以利用大语言模型,通过智能体观测的最小自然语言描述来推断潜在协调模式,从而为多智能体强化学习生成有效的协调图先验。我们将这些先验通过图神经网络流水线中的图卷积层集成到多智能体强化学习算法中,并在多智能体粒子环境基准测试的四个协同场景中,与从独立学习到最先进的基于图的方法等涵盖完整协调建模谱系的基线方法进行对比评估。此外,我们对五种紧凑型开源大语言模型进行消融实验,以评估先验质量对模型选择的敏感性。研究结果首次提供定量证据,表明大语言模型衍生的图先验能够增强动态多智能体环境中的协调能力和适应性,并证明参数规模低至15亿的模型即可有效生成先验。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
多智能体协作机制:大语言模型综述
专知会员服务
70+阅读 · 2025年3月4日
多智能体博弈学习研究进展
专知会员服务
91+阅读 · 2024年5月5日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
多智能体协作机制:大语言模型综述
专知会员服务
70+阅读 · 2025年3月4日
多智能体博弈学习研究进展
专知会员服务
91+阅读 · 2024年5月5日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员