Communication is essential for coordination in \emph{cooperative} multi-agent reinforcement learning under partial observability, yet \emph{cross-timestep} delays cause messages to arrive multiple timesteps after generation, inducing temporal misalignment and making information stale when consumed. We formalize this setting as a delayed-communication partially observable Markov game (DeComm-POMG) and decompose a message's effect into \emph{communication gain} and \emph{delay cost}, yielding the Communication Gain and Delay Cost (CGDC) metric. We further establish a value-loss bound showing that the degradation induced by delayed messages is upper-bounded by a discounted accumulation of an information gap between the action distributions induced by timely versus delayed messages. Guided by CGDC, we propose \textbf{CDCMA}, an actor--critic framework that requests messages only when predicted CGDC is positive, predicts future observations to reduce misalignment at consumption, and fuses delayed messages via CGDC-guided attention. Experiments on no-teammate-vision variants of Cooperative Navigation and Predator Prey, and on SMAC maps across multiple delay levels show consistent improvements in performance, robustness, and generalization, with ablations validating each component.


翻译:通信在局部可观测环境中对于合作多智能体强化学习的协调至关重要,然而跨时间步延迟会导致消息在生成后多个时间步后才到达,引发时间错位并使得信息在消费时变得过时。我们将该场景形式化为延迟通信部分可观测马尔可夫博弈(DeComm-POMG),并将消息的影响分解为通信增益与延迟代价,由此提出通信增益与延迟代价(CGDC)度量指标。我们进一步建立了一个值损失上界,表明延迟消息导致的性能退化受限于及时消息与延迟消息所诱导动作分布之间信息差的折现累积。在CGDC的指导下,我们提出CDCMA演员-评论家框架:仅在预测CGDC为正时请求消息,通过预测未来观测减少消费时的错位,并利用CGDC引导的注意力机制融合延迟消息。在无队友视觉变体的合作导航与捕食者-猎物任务以及不同延迟级别的SMAC地图上的实验表明,该方法在性能、鲁棒性和泛化性上均取得一致提升,消融实验验证了各组件的有效性。

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《多智能体合作强化学习中的通信》139页
专知会员服务
46+阅读 · 2025年2月17日
《信息在多智能体决策中的作用》214页
专知会员服务
64+阅读 · 2024年11月20日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员