MACTAS: Self-Attention-Based Inter-Agent Communication in Multi-Agent Reinforcement Learning with Action-Value Function Decomposition - 专知论文

会员服务 ·

0

分解 · 智能体 · 自注意力 · 动作价值函数 · 价值函数 ·

MACTAS: Self-Attention-Based Inter-Agent Communication in Multi-Agent Reinforcement Learning with Action-Value Function Decomposition

翻译：MACTAS：基于自注意力的多智能体强化学习中动作价值函数分解的智能体间通信

Maciej Wojtala,Bogusz Stefańczyk,Dominik Bogucki,Łukasz Lepak,Jakub Strykowski,Paweł Wawrzyński

from arxiv, Submitted for IJCAI 2026

Communication is essential for the collective execution of complex tasks by human agents, motivating interest in communication mechanisms for multi-agent reinforcement learning (MARL). However, existing communication protocols in MARL are often complex and non-differentiable. In this work, we introduce a self-attention-based communication method that exchanges information between the agents in MARL. Our proposed approach is fully differentiable, allowing agents to learn to generate messages in a reward-driven manner. The method can be seamlessly integrated with any action-value function decomposition algorithm and can be viewed as an orthogonal extension of such decompositions. Notably, it includes a fixed number of trainable parameters, independent of the number of agents, which makes it scalable to large systems. Experimental results on the SMACv2 benchmark demonstrate the effectiveness of our approach, which achieves state-of-the-art performance on a number of maps. makes it scalable to large systems. Experimental results on the SMACv2 benchmark demonstrate the effectiveness of our approach, which achieves state-of-the-art performance on a number of maps.

翻译：通信对于人类智能体协同执行复杂任务至关重要，这激发了多智能体强化学习（MARL）中通信机制的研究兴趣。然而，现有的MARL通信协议通常复杂且不可微分。本文提出了一种基于自注意力的通信方法，用于在MARL智能体之间交换信息。所提出的方法完全可微分，允许智能体以奖励驱动的方式学习生成消息。该方法可与任何动作价值函数分解算法无缝集成，并可视为此类分解的正交扩展。值得注意的是，该方法包含固定数量的可训练参数，与智能体数量无关，从而可扩展至大规模系统。在SMACv2基准测试上的实验结果表明了该方法的有效性，其在多个地图上实现了最先进的性能。

0

相关内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

16+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

专知会员服务

37+阅读 · 2025年9月12日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

34+阅读 · 2025年1月19日

《空战战术多智能体强化学习中的可解释性》最新报告

《空战战术多智能体强化学习中的可解释性》最新报告

专知会员服务

83+阅读 · 2024年10月25日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

59+阅读 · 2022年4月30日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

干货！自然语言处理中的自注意力机制！

干货！自然语言处理中的自注意力机制！

全球人工智能

11+阅读 · 2018年3月27日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Verifiable Semantics for Agent-to-Agent Communication

Arxiv

0+阅读 · 2月18日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems

Arxiv

0+阅读 · 2月10日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Spatiotemporal Attention-Augmented Inverse Reinforcement Learning for Multi-Agent Task Allocation

Arxiv

0+阅读 · 2月9日

Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2月4日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月29日

Communication Methods in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 1月19日

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

动作价值函数

最新内容

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

1+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

1+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

5+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

4+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

5+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

2+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

3+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

5+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

2+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

5+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

3+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

4+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

4+阅读 · 今天6:09

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

19+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

15+阅读 · 4月25日

相关VIP内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

16+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

专知会员服务

37+阅读 · 2025年9月12日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

34+阅读 · 2025年1月19日

《空战战术多智能体强化学习中的可解释性》最新报告

《空战战术多智能体强化学习中的可解释性》最新报告

专知会员服务

83+阅读 · 2024年10月25日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

“Maven计划”的发展演变之“Maven智能系统”应用

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

深入Maven智能系统：Palantir基于Claude打造的军事大脑

相关资讯

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

59+阅读 · 2022年4月30日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

干货！自然语言处理中的自注意力机制！

干货！自然语言处理中的自注意力机制！

全球人工智能

11+阅读 · 2018年3月27日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Verifiable Semantics for Agent-to-Agent Communication

Arxiv

0+阅读 · 2月18日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems

Arxiv

0+阅读 · 2月10日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Spatiotemporal Attention-Augmented Inverse Reinforcement Learning for Multi-Agent Task Allocation

Arxiv

0+阅读 · 2月9日

Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2月4日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月29日

Communication Methods in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 1月19日

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Arxiv

0+阅读 · 1月14日

相关基金

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员