Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning - 专知论文

会员服务 ·

0

时间步 · 增益 · 代价 · 多智能体强化学习 · 多智能体 ·

Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning

翻译：跨时间步延迟下合作多智能体强化学习的通信增益与延迟代价

Zihong Gao,Hongjian Liang,Lei Hao,Liangjun Ke

Communication is essential for coordination in \emph{cooperative} multi-agent reinforcement learning under partial observability, yet \emph{cross-timestep} delays cause messages to arrive multiple timesteps after generation, inducing temporal misalignment and making information stale when consumed. We formalize this setting as a delayed-communication partially observable Markov game (DeComm-POMG) and decompose a message's effect into \emph{communication gain} and \emph{delay cost}, yielding the Communication Gain and Delay Cost (CGDC) metric. We further establish a value-loss bound showing that the degradation induced by delayed messages is upper-bounded by a discounted accumulation of an information gap between the action distributions induced by timely versus delayed messages. Guided by CGDC, we propose \textbf{CDCMA}, an actor--critic framework that requests messages only when predicted CGDC is positive, predicts future observations to reduce misalignment at consumption, and fuses delayed messages via CGDC-guided attention. Experiments on no-teammate-vision variants of Cooperative Navigation and Predator Prey, and on SMAC maps across multiple delay levels show consistent improvements in performance, robustness, and generalization, with ablations validating each component.

翻译：通信在局部可观测环境中对于合作多智能体强化学习的协调至关重要，然而跨时间步延迟会导致消息在生成后多个时间步后才到达，引发时间错位并使得信息在消费时变得过时。我们将该场景形式化为延迟通信部分可观测马尔可夫博弈（DeComm-POMG），并将消息的影响分解为通信增益与延迟代价，由此提出通信增益与延迟代价（CGDC）度量指标。我们进一步建立了一个值损失上界，表明延迟消息导致的性能退化受限于及时消息与延迟消息所诱导动作分布之间信息差的折现累积。在CGDC的指导下，我们提出CDCMA演员-评论家框架：仅在预测CGDC为正时请求消息，通过预测未来观测减少消费时的错位，并利用CGDC引导的注意力机制融合延迟消息。在无队友视觉变体的合作导航与捕食者-猎物任务以及不同延迟级别的SMAC地图上的实验表明，该方法在性能、鲁棒性和泛化性上均取得一致提升，消融实验验证了各组件的有效性。

0

相关内容

时间步

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

16+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《多智能体合作强化学习中的通信》139页

《多智能体合作强化学习中的通信》139页

专知会员服务

46+阅读 · 2025年2月17日

《信息在多智能体决策中的作用》214页

《信息在多智能体决策中的作用》214页

专知会员服务

64+阅读 · 2024年11月20日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

多智能体学习中合作的综述

多智能体学习中合作的综述

专知会员服务

75+阅读 · 2023年12月12日

基于通信的多智能体强化学习进展综述

基于通信的多智能体强化学习进展综述

专知会员服务

112+阅读 · 2022年11月12日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

315+阅读 · 2022年6月23日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协方差融合算法在时滞系统中的应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

高谱效全/半双工混合通信网络连续中继协议设计与性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态网络中信息传播时间的理论分析与跨层算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 6月13日

Learning Multi-Agent Communication Protocol: Study on Information Entropy Efficiency in MARL

Arxiv

0+阅读 · 6月5日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

0+阅读 · 6月4日

Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning

Arxiv

0+阅读 · 6月2日

LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月1日

Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering

Arxiv

0+阅读 · 5月25日

Exploiting Multicast for Accelerating Collective Communication

Arxiv

0+阅读 · 5月21日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

What Do Agents Communicate? Characterizing Information Exchange in Multi-Agent Systems

Arxiv

0+阅读 · 5月19日

Dual-Gated Epistemic Time-Dilation: Autonomous Compute Modulation in Asynchronous MARL

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

多智能体强化学习

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

1+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

16+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《多智能体合作强化学习中的通信》139页

《多智能体合作强化学习中的通信》139页

专知会员服务

46+阅读 · 2025年2月17日

《信息在多智能体决策中的作用》214页

《信息在多智能体决策中的作用》214页

专知会员服务

64+阅读 · 2024年11月20日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

多智能体学习中合作的综述

多智能体学习中合作的综述

专知会员服务

75+阅读 · 2023年12月12日

基于通信的多智能体强化学习进展综述

基于通信的多智能体强化学习进展综述

专知会员服务

112+阅读 · 2022年11月12日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

315+阅读 · 2022年6月23日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

相关论文

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 6月13日

Learning Multi-Agent Communication Protocol: Study on Information Entropy Efficiency in MARL

Arxiv

0+阅读 · 6月5日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

0+阅读 · 6月4日

Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning

Arxiv

0+阅读 · 6月2日

LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月1日

Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering

Arxiv

0+阅读 · 5月25日

Exploiting Multicast for Accelerating Collective Communication

Arxiv

0+阅读 · 5月21日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

What Do Agents Communicate? Characterizing Information Exchange in Multi-Agent Systems

Arxiv

0+阅读 · 5月19日

Dual-Gated Epistemic Time-Dilation: Autonomous Compute Modulation in Asynchronous MARL

Arxiv

0+阅读 · 5月19日

相关基金

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协方差融合算法在时滞系统中的应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

高谱效全/半双工混合通信网络连续中继协议设计与性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态网络中信息传播时间的理论分析与跨层算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员