Centralized value learning is often assumed to improve coordination and stability in multi-agent reinforcement learning, yet this assumption is rarely tested under controlled conditions. We directly evaluate it in a fully tabular predator-prey gridworld by comparing independent and centralized Q-learning under explicit embodiment constraints on agent speed and stamina. Across multiple kinematic regimes and asymmetric agent roles, centralized learning fails to provide a consistent advantage and is frequently outperformed by fully independent learning, even under full observability and exact value estimation. Moreover, asymmetric centralized-independent configurations induce persistent coordination breakdowns rather than transient learning instability. By eliminating confounding effects from function approximation and representation learning, our tabular analysis isolates coordination structure as the primary driver of these effects. The results show that increased coordination can become a liability under embodiment constraints, and that the effectiveness of centralized learning is fundamentally regime and role dependent rather than universal.


翻译:集中式价值学习常被认为能提升多智能体强化学习中的协调性与稳定性,但这一假设鲜少在受控条件下得到验证。我们通过在完全表格化的捕食者-猎物网格世界中,比较具有明确速度与耐力具身约束的独立Q学习与集中式Q学习,对此进行了直接评估。在多种运动学机制与非对称智能体角色下,集中式学习未能提供一致优势,且常被完全独立学习超越——即使在完全可观测与精确价值估计条件下亦然。此外,非对称的集中-独立混合配置会引发持续的协调崩溃,而非短暂的学习不稳定性。通过消除函数逼近与表示学习带来的混杂效应,我们的表格化分析将协调结构分离为这些效应的主要驱动因素。结果表明:在具身约束下,增强的协调性可能转化为性能负担;且集中式学习的有效性根本上取决于机制与角色,而非普适性。

0
下载
关闭预览

相关内容

《多智能体强化学习中的机制设计优化研究》103页
专知会员服务
31+阅读 · 2025年5月31日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
多智能体强化学习控制与决策研究综述
专知会员服务
46+阅读 · 2024年11月23日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
多智能体协同决策方法研究
专知会员服务
133+阅读 · 2022年12月15日
专知会员服务
170+阅读 · 2021年8月3日
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
《多智能体强化学习中的机制设计优化研究》103页
专知会员服务
31+阅读 · 2025年5月31日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
多智能体强化学习控制与决策研究综述
专知会员服务
46+阅读 · 2024年11月23日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
多智能体协同决策方法研究
专知会员服务
133+阅读 · 2022年12月15日
专知会员服务
170+阅读 · 2021年8月3日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员