多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体序贯决策是涵盖自动驾驶、机器人技术及协作 AI 助手等众多现实世界系统的核心基础。在动态且部分可观测的环境中，有效的通信对于降低不确定性并实现协同至关重要。尽管多智能体通信（MA-Comm）的研究跨越了多种范式，本综述明确围绕通信的“五个 W”展开构建：即通信主体与对象（who communicates with whom）、通信内容（what is communicated）、通信时机（when communication occurs）以及通信动机（why communication is beneficial）。该视角为综合不同方法提供了一个连贯的结构，并揭示了跨范式的共享设计原则。在多智能体强化学习（MARL）领域，早期工作依赖于手工设计或隐式通信协议，随后演进为针对奖励和控制进行优化的可训练端到端机制。尽管这些方法行之有效，但通常会产生特定于任务且可解释性较弱的通信，从而催生了对涌现语言（EL）的研究，即智能体通过交互开发出更具结构化或符号化的协议。然而，涌现语言方法在语义落地（grounding）、泛化性和可扩展性方面仍面临挑战，这促使近期研究转向大语言模型（LLMs），旨在利用自然语言先验在开放式多智能体设置中进行推理、规划与协同。这一演进逻辑构成了本综述的基础：我们分析了通信范式如何因早期方法的局限性而演变，以及基于 MARL、EL 和 LLM 的系统如何处理多智能体通信中互补的各个层面。本文对跨 MARL、EL 及基于 LLM 的多智能体系统中的通信研究进行了统一综述。通过围绕“五个 W”展开，我们考察了不同范式如何激发、构建并实施通信，揭示了跨范式的权衡关系，并识别了在通信、协同与学习方面的开放性挑战。通过提供系统性对比与面向设计的见解，本综述旨在帮助学术界提取有效的通信设计模式，并支持开发结合学习、语言与控制的新型混合系统，以满足多样化的任务需求、可扩展性及可解释性要求。

1 引言

多智能体决策在广泛的现实应用中发挥着至关重要的作用，包括机器人技术 Gu et al. (2016); Zhang et al. (2015)，如导航 Candido & Hutchinson (2011) 与操作 Pajarinen & Kyrki (2017)；自主系统 Talpaert et al. (2019)，包括自动驾驶 Wang et al. (2019a)；以及不确定性下的规划 Wang et al. (2019b); Cheng et al. (2018)。在这些场景中，多个智能体必须在与环境及彼此交互的同时独立采取行动。根据任务的不同，智能体可能为了实现共同目标而协作，为了有限资源而竞争，或者参与既包含协作又包含竞争的混合动机交互。这些系统面临的一个核心挑战是不确定性，它可能源于多种渠道：对全局状态或其他智能体意图的观察有限或部分可观测，以及环境动态中固有的随机性。因此，高效的多智能体系统必须解决协同、去中心化控制以及不确定性下的决策问题，且通常需要在有限通信的条件下实时完成。为了应对这些挑战，强化学习 (RL) 作为一种训练智能体通过试错进行序贯决策的框架被广泛探索。特别是深度强化学习 (DRL)，已在模拟环境 Mnih et al. (2013); Lillicrap et al. (2015) 和现实世界场景 Gu et al. (2016); Zhang et al. (2015); Qureshi et al. (2017); Meng et al. (2019) 中得到了广泛研究。虽然许多 DRL 算法假设环境是完全可观测的，并将其建模为马尔可夫决策过程 (MDPs) Lample & Chaplot (2016); Schulman et al. (2015); Pipattanasomporn et al. (2009); Li et al. (2002)，但现实世界的多智能体系统通常涉及部分可观测马尔可夫决策过程 (POMDPs)，其中每个智能体仅能看到系统状态的局部视图。在这种情况下，智能体间的通信可以通过交换信息并构建更完整的环境表示来缓解部分可观测性问题 Chen et al. (2024b)。因此，多智能体强化学习 (MARL) 的一个重要研究方向专注于设计有效的通信策略，以提高复杂环境下的决策能力。有效的通信是多智能体系统的核心能力，尤其是在需要自主智能体之间进行协同、谈判或竞争的场景中。在 MARL 中，智能体必须基于局部观测做出决策，同时在部分可观测且通常具有随机性的环境中与他人交互。通信使智能体能够交换与任务相关的信息，如观测结果、目标、意图或策略，这有助于它们对齐行动、消除不确定性并更有效地协同。虽然这在多机器人协作 Li et al. (2002) 或智能电网控制 Pipattanasomporn et al. (2009) 等完全协作设置中至关重要，但通信在竞争和混合动机场景中也扮演着微妙而重要的角色。例如，在《星际争霸》Samvelyan et al. (2019) 或《刀塔》(Dota) Berner et al. (2019) 等对抗性博弈中，智能体可能会进行策略性信号传输、误导信息或谈判，以操纵对手或形成临时联盟。在这种情况下，通信不仅是协作的工具，也是在策略性交互中影响、欺骗或适应他人行为的机制。为了超越人工设计的协议，近期的研究重点转向了学习化通信 (Learned Communication)，即智能体通过交互开发通信策略。一种广泛使用的方法是在训练期间开启智能体间的梯度流，允许它们根据任务表现优化消息内容和发送时机。这一系列工作为手工规则提供了一种可扩展且灵活的替代方案，使智能体能够发现针对其目标和环境动态（无论是协作、竞争还是介于两者之间）而量身定制的高效且具适应性的消息传递方案。

1.1 多智能体通信学习的演进

MARL 中的通信：多智能体通信学习的研究经历了显著演进，反映了人工智能和多智能体系统的整体进步。该领域的最初尝试集中在使 MARL 具备通信能力，以增强部分可观测下的协同。早期研究解决了诸如“谁该通信”以及“应共享哪些信息”等基础问题 Paulos et al. (2019); Lowe et al. (2017); Foerster et al. (2016a); Sukhbaatar et al. (2016); Jiang & Lu (2018); Das et al. (2018); Rangwala & Williams (2020)。其中许多早期方法采用了中心化训练与去中心化执行 (CTDE) 框架，即中心化协调器在训练期间促进通信，而智能体在执行期间独立行动。例如，CommNet Sukhbaatar et al. (2016) 和 IC3Net Singh et al. (2018) 聚合各智能体的隐藏状态以生成共享表示。随后的方法引入了更灵活的机制，如 TarMAC Das et al. (2018) 中基于注意力的消息路由，以及 DICG Li et al. (2020) 中基于图结构的消息传播，允许智能体动态选择通信伙伴。虽然这些模型在训练时往往依赖中心化组件，但它们仍支持去中心化执行，从而在部署时保持了可扩展性和自主性。尽管这些神经架构实现了学习化通信，但由于深度神经网络生成的复杂消息难以分析，它们往往缺乏可解释性 Brown et al. (2020); LeCun et al. (2015)。此外，大多数方法假设智能体可以交换连续的实值消息，忽略了现实通信网络通常依赖离散且带宽受限传输的实际约束 Foerster et al. (2016a); Lowe et al. (2017); Mordatch & Abbeel (2018); Freed et al. (2020b;a)。这些局限性促使了对涌现离散通信 (Emergent Discrete Communication) 的研究，即智能体开发出结构化、可解释的协议来交换信息。尽管 MARL 在 RL 框架内学习通信协议方面取得了长足进步，但实现智能体协作的其他替代方法也日益受到关注。其中一个方向是涌现语言 (EL)，它研究智能体如何通过反复交互开发出结构化的通信协议。这一系列工作揭示了在协作设置中，无需预定义语言或协议，有意义的通信是如何有机产生的 Lazaridou & Baroni (2020); Li et al. (2022)。这一转向源于传统基于 MARL 通信的几个局限性：(1) 虽然端到端学习的通信对于任务优化非常有效，但它通常产生连续、不透明的消息表示，难以跨任务和智能体群体进行解释、验证或重用。(2) 此外，MARL 通信协议通常与特定的环境和奖励结构紧密耦合，在智能体组成、任务语义或部署条件发生变化时表现脆弱。这些挑战促使研究人员在 EL 研究中将通信本身视为一种学习结果，而不仅仅是 MARL 设置中为奖励优化的内部信号。 EL 中的通信：EL 中的学习化通信一直是提高多智能体系统可解释性和结构化水平的有前途的途径。为了超越不透明的连续消息空间，早期研究探索了智能体如何通过交互开发离散通信协议——使用独热 (one-hot) 消息 Chaabouni et al. (2019); Kottur et al. (2017); Havrylov & Titov (2017); Lazaridou et al. (2016); Lee et al. (2017)、二进制信号 Foerster et al. (2016a) 或其他受限的消息格式 Eccles et al. (2019)。这些努力使智能体通信对人类更具可解释性，但也经常暴露协同挑战，例如零样本失败 (Zero-shot failures)，即独立训练的智能体无法理解彼此学到的协议 Hu et al. (2020b)。为了解决这一问题，研究人员开始设计旨在鼓励更稳健、更具泛化性且与人类对齐的通信的环境和训练方法 Bullard et al. (2021; 2020)。虽然这些尝试多源于 MARL 背景，但其影响已扩展到更广泛的多智能体决策领域，包括传统强化学习之外的设置。例如，一些工作旨在将涌现通信与自然语言对齐 Lee et al. (2019); Lowe et al. (2020)，而另一些工作则集成预训练语言模型以引入语言先验，并促进结构化、可解释的协同 Lazaridou et al. (2020); Tucker et al. (2021)。这些发展反映了一种日益增长的趋势，即将学习到的通信协议与人类语言联系起来，不仅支持 MARL 中的高效协同，还支持更广泛的智能体协作和人机交互。近期，大语言模型 (LLMs) 成为这一演进轨迹中自然而然的下一步。通过利用强大的语言理解、推理能力以及从大规模预训练中获得的广泛世界知识，LLMs 为多智能体通信提供了新的基础。与传统的 MARL 或 EL 智能体不同，基于 LLM 的系统可以直接以自然语言进行交流，推断共同目标，并以极少的额外训练适应新任务和新队友 Yang et al. (2025)。这种能力使 LLMs 在需要灵活协同、零样本泛化以及与人类交互的设置中极具吸引力。 LLMs 中的通信：LLMs 的兴起引入了多智能体通信的新范式，扩展到了传统 MARL 框架之外。与 MARL 中的通信（智能体通过强化学习从零开始开发协议）不同，基于 LLM 的智能体利用预训练的语言知识进行结构化的、基于自然语言的交换和决策 Du et al. (2023); Liang et al. (2023); Wang et al. (2023c)。这也有别于 EL 研究，后者的重点是智能体在没有任何预先存在语言知识的任务驱动设置中如何开发通信协议。近期的工作为基于 LLM 的多智能体系统提出了多种通信架构，包括直接消息传递、思维链 (CoT) 交互、分层结构以及基于图的交换 Zhang et al. (2023c); Du et al. (2023); Qian et al. (2023); Hong et al. (2023); Holt et al.; Wu et al. (2023b); Jiang et al. (2023); Chan et al. (2023); Qian et al. (2024b); Zhuge et al. (2024b)。这些框架使智能体能够在多样化的环境中协作、辩论、规划和推理，同时提供跨任务的可扩展性和适应性。一个关键区别在于，EL 研究考察通信如何通过交互和学习从零开始涌现，而基于 LLM 的通信则建立在预先存在的自然语言能力之上。尽管存在这种差异，EL 仍为基于 LLM 的系统提供了宝贵的见解，特别是在理解协同压力如何产生结构化、组合式且与任务相关的通信方面。将这两条研究路径联系起来，为开发结合学习行为、涌现结构和预训练语言模型表达能力的混合通信框架指出了一条充满前景的道路。LLMs 受到多智能体系统青睐的部分原因是它们解决了 EL 方法中持续存在的一些局限性。虽然 EL 相比纯隐变量的 MARL 通信提高了可解释性，但它通常需要从零开始训练、精细的环境设计以及大量的交互来稳定有意义的协议。相比之下，LLMs 为智能体提供了即时访问丰富语言结构、常识推理和广泛世界知识的能力，无需显式的协议学习即可实现零样本或少样本协同。因此，通信的角色从特定任务的信号机制转变为可重用的、语义落地的接口，能够支持跨任务和跨智能体的灵活协同。 EL 和基于 LLM 的智能体凸显了多智能体通信概念化的更广泛转变，超越了传统 MARL 框架的假设。每一条研究路径并非取代早期范式，而是为了应对在任务和交互复杂度不断增加时遇到的表达能力、可解释性、可扩展性或适应性方面的具体局限性而出现的。综合来看，这些发展揭示了通信并非固定的设计选择，而是一种随着智能体能力、环境和协同需求共同演进的机制。这种演进促使我们对多智能体通信进行统一处理，明确追踪当系统从封闭的特定任务设置转向开放的、面向人类和部署导向的场景时，通信机制是如何转型的。

1.2 对专项综述的需求

尽管取得了实质性进展，但大多数关于多智能体通信的现有工作都是作为更广泛的 MARL 综述中的一个小节进行讨论的 Wong et al. (2023); Gronauer & Diepold (2022); Oroojlooy & Hajinezhad (2023); Nguyen et al. (2020); Hernandez-Leal et al. (2019); Zaïem & Bennequin (2019)。鉴于从基于 MARL 的通信、EL 到 LLM 驱动协同的方法复杂性和多样性日益增加，迫切需要对 MA-Comm 进行专项且结构化的回顾。本综述旨在将该领域正式化，突出关键研究挑战，并为强化学习、自然语言处理和多智能体协作交叉领域的未来研究提供路线图。本文的主要贡献如下： * 跨范式的多智能体通信统一综述：我们提出了首个系统性统一了基于 MARL 的通信、EL 和 LLM 赋能的多智能体系统的综述，超越了传统的以 MARL 为中心的视角，捕捉了多智能体决策中通信的完整演进过程。 * “五个 W”驱动的分析框架：我们利用通信的“五个 W”——即谁与谁通信 (who communicates with whom)、通信内容 (what is communicated)、何时通信 (when communication occurs)、为何需要通信 (why communication is needed) 以及如何激发和实施通信 (how it is motivated and operationalized)——来组织文献，为跨范式比较提供了一致的视角。 * 跨范式综合与桥接分析：除了对方法进行归类，我们还引入了专门的桥接章节，解释 MARL-Comm 的局限性如何催生了 EL，以及 MARL 和 EL 的空白如何导致了基于 LLM 和混合 LLM-MARL 系统的出现，明确各范式的互补角色而非孤立处理。 * 基础性、形式化与博弈论视角：我们将现代通信方法根植于“通信即行动”的经典视角，加入了通信结构的简洁数学形式化，并将混合动机与竞争设置连接到纳什均衡 (Nash) 和贝叶斯纳什均衡 (Bayesian Nash equilibrium) 概念，在不增加过度形式化负担的前提下增强理论清晰度。 * 开放挑战与未来方向：我们识别了涵盖语义落地、可解释性、泛化性、效率和理论保证的关键开放问题，并勾勒了在日益开放且安全至关重要的设置中，算法设计、基准测试以及以人为中心的多智能体通信的未来研究方向。

综述结构与组织：按照“带通信的 MARL”、“EL”以及“基于 LLM 的多智能体系统”的顺序，本文结构安排如下。第 2 节回顾了智能体通信的基础，展示了现代 MARL、EL 和基于 LLM 的方法如何扩展了将通信视为目标导向、塑造信念之行动的经典理论。第 3 节回顾了关于 MARL、涌现通信和基于 LLM 智能体的现有综述，指出了对多智能体通信 (MA-Comm) 统一视角的必要性。第 4 节概述了指导本综述文献筛选的方法论框架及纳入/排除标准。第 5、6、7 节介绍了多智能体通信的三大核心范式：带学习通信协议的 MARL、EL 以及 LLM 赋能的多智能体通信。每一节都明确围绕通信的“五个 W”组织，提供统一的跨范式分析视角。我们首先介绍必要背景，然后根据这些维度对代表性方法进行分类，强调不同的通信动机（Why）如何塑造具体的设计选择（How）。为了进一步加强跨范式的连贯性，我们在每个主章节末尾添加了专门的桥接小节，并配有一个综合的“桥接” (Bridge) 章节，整合 MARL、EL 和基于 LLM 的通信，阐明它们的关系、局限性及互补角色。最后，第 8 节综合了全篇综述的见解，讨论了多智能体通信中的关键挑战、局限性和开放问题，从实现层面扩展到认识论视角，并勾勒了跨 MARL、EL 和基于 LLM 系统的理论、算法、基准测试和以人为中心通信的未来研究方向。