Cooperative multi-agent reinforcement learning (MARL) is typically framed as a decentralised partially observable Markov decision process (Dec-POMDP), a setting whose hardness stems from two key challenges: partial observability and decentralised coordination. Genuinely solving such tasks requires Dec-POMDP reasoning, where agents use history to infer hidden states and coordinate based on local information. Yet it remains unclear whether popular benchmarks actually demand this reasoning or permit success via simpler strategies. We introduce a diagnostic suite combining statistically grounded performance comparisons and information-theoretic probes to audit the behavioural complexity of baseline policies (IPPO and MAPPO) across 37 scenarios spanning MPE, SMAX, Overcooked, Hanabi, and MaBrax. Our diagnostics reveal that success on these benchmarks rarely requires genuine Dec-POMDP reasoning. Reactive policies match the performance of memory-based agents in over half the scenarios, and emergent coordination frequently relies on brittle, synchronous action coupling rather than robust temporal influence. These findings suggest that some widely used benchmarks may not adequately test core Dec-POMDP assumptions under current training paradigms, potentially leading to over-optimistic assessments of progress. We release our diagnostic tooling to support more rigorous environment design and evaluation in cooperative MARL.


翻译:合作多智能体强化学习通常被建模为去中心化部分可观测马尔可夫决策过程,该框架的复杂性源于两个核心挑战:部分可观测性与去中心化协调。真正解决此类任务需要Dec-POMDP推理能力,即智能体利用历史信息推断隐藏状态,并基于局部信息进行协调。然而,现有主流基准测试是否真正需要这种推理能力,还是允许通过简单策略获得成功,目前尚不明确。我们开发了一套诊断工具集,结合基于统计的性能比较与信息论探针,对IPPO和MAPPO基线策略在涵盖MPE、SMAX、Overcooked、Hanabi和MaBrax的37个场景中的行为复杂度进行审计。诊断结果表明:在这些基准测试中获得成功很少需要真正的Dec-POMDP推理能力。超过半数的场景中,反应式策略与基于记忆的智能体表现相当;涌现的协调行为往往依赖脆弱同步动作耦合,而非稳健的时序影响。这些发现表明,在当前训练范式下,部分广泛使用的基准测试可能未能充分检验Dec-POMDP的核心假设,可能导致对研究进展的过度乐观评估。我们公开诊断工具以支持合作多智能体强化学习中更严谨的环境设计与评估。

0
下载
关闭预览

相关内容

《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
28+阅读 · 2025年11月17日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
41+阅读 · 2025年4月18日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
多智能体强化学习控制与决策研究综述
专知会员服务
48+阅读 · 2024年11月23日
《信息在多智能体决策中的作用》214页
专知会员服务
63+阅读 · 2024年11月20日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
28+阅读 · 2025年11月17日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
41+阅读 · 2025年4月18日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
多智能体强化学习控制与决策研究综述
专知会员服务
48+阅读 · 2024年11月23日
《信息在多智能体决策中的作用》214页
专知会员服务
63+阅读 · 2024年11月20日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员