Multi-agent coordination dilemmas expose a fundamental tension between individual optimization and collective welfare, yet characterizing such coordination requires metrics sensitive to temporal structure and collective dynamics. As a diagnostic testbed, we study a BoE-derived multi-agent variant of the Battle of the Exes, formalizing it as a Markov game in which turn-taking emerges as a periodic coordination regime. Conventional outcome-based metrics (e.g., efficiency and min/max fairness) are temporally blind (they cannot distinguish structured alternation from monopolistic or random access patterns) and fairness ratios lose discriminative power as n grows, obscuring inequities. To address this limitation, we introduce Perfect Alternation (PA) as a reference coordination regime and propose six novel Alternation (ALT) metrics designed as temporally sensitive observables of coordination quality. Using Q-learning agents as a minimal adaptive diagnostic baseline, and comparing against random-policy null processes, we uncover a clear measurement failure: despite exhibiting deceptively high traditional metrics (e.g., reward fairness often exceeding 0.9), learned policies perform up to 81% below random baselines under ALT-variant evaluation, a deficit already present in the two-agent case and intensifying as n grows. These results demonstrate, in this setting, that high aggregate payoffs can coexist with poor temporal coordination, and that conventional metrics may severely mischaracterize emergent dynamics. Our findings underscore the necessity of temporally aware observables for analyzing coordination in multi-agent games and highlight random-policy baselines as essential null processes for interpreting coordination outcomes relative to chance-level behavior.


翻译:多智能体协调困境揭示了个体优化与集体福利之间的根本张力,然而刻画此类协调需要能敏感捕捉时间结构与集体动态的度量指标。作为诊断测试平台,我们研究了一种基于“前任之战”的多智能体变体,将其形式化为马尔可夫博弈,其中轮流行动作为周期性协调机制涌现。传统基于结果的度量指标(如效率与最小/最大公平性)具有时间盲区(无法区分结构化交替与垄断性或随机访问模式),且公平性比率随智能体数量n增长而丧失判别力,从而掩盖了不平等现象。为突破此局限,我们引入完美交替作为参考协调机制,并提出六种新颖的交替度量指标,将其设计为对协调质量具有时间敏感性的观测变量。通过使用Q学习智能体作为最小适应性诊断基线,并与随机策略零过程进行对比,我们揭示出明显的测量失效现象:尽管习得策略展现出具有欺骗性的高传统度量值(例如奖励公平性常超过0.9),但在交替度量变体评估下,其表现较随机基线最多低81%,这种缺陷在双智能体场景中已存在并随n增长而加剧。这些结果表明,在该设定中高聚合收益可能与低劣的时间协调共存,且传统度量可能严重误判涌现动态。我们的发现强调,时间感知的观测变量对于分析多智能体博弈中的协调至关重要,并凸显随机策略基线作为解释协调结果相对于随机行为水平的基本零过程的价值。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
21+阅读 · 4月25日
多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
20+阅读 · 2025年5月8日
《信息在多智能体决策中的作用》214页
专知会员服务
63+阅读 · 2024年11月20日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员