Multi-agent coordination dilemmas expose a fundamental tension between individual optimization and collective welfare, yet characterizing such coordination requires metrics sensitive to temporal structure and collective dynamics. As a diagnostic testbed, we study a BoE-derived multi-agent variant of the Battle of the Exes, formalizing it as a Markov game in which turn-taking emerges as a periodic coordination regime. Conventional outcome-based metrics (e.g., efficiency and min/max fairness) are temporally blind (they cannot distinguish structured alternation from monopolistic or random access patterns) and fairness ratios lose discriminative power as n grows, obscuring inequities. To address this limitation, we introduce Perfect Alternation (PA) as a reference coordination regime and propose six novel Alternation (ALT) metrics designed as temporally sensitive observables of coordination quality. Using Q-learning agents as a minimal adaptive diagnostic baseline, and comparing against random-policy null processes, we uncover a clear measurement failure: despite exhibiting deceptively high traditional metrics (e.g., reward fairness often exceeding 0.9), learned policies perform up to 81% below random baselines under ALT-variant evaluation, a deficit already present in the two-agent case and intensifying as n grows. These results demonstrate, in this setting, that high aggregate payoffs can coexist with poor temporal coordination, and that conventional metrics may severely mischaracterize emergent dynamics. Our findings underscore the necessity of temporally aware observables for analyzing coordination in multi-agent games and highlight random-policy baselines as essential null processes for interpreting coordination outcomes relative to chance-level behavior.


翻译:多智能体协调困境揭示了个体优化与集体福利之间的根本张力,然而表征此类协调需要能够感知时间结构与集体动态的度量指标。作为诊断性测试基准,我们研究了一种源于“异性博弈”的多智能体变体——改编自“异性博弈”(Battle of the Exes, BoE),并将其形式化为一个马尔可夫博弈,其中轮流交替作为周期性协调机制出现。传统基于结果的度量指标(如效率、最小/最大公平性)对时间不敏感(无法区分结构化交替与垄断性或随机访问模式),且随着智能体数量n增长,公平率丧失了区分能力,掩盖了不平等现象。为解决此局限,我们引入完美交替(Perfect Alternation, PA)作为参考协调机制,并提出六种新型交替(Alternation, ALT)度量指标,将其设计为协调质量的时间敏感可观测变量。以Q学习智能体作为最小自适应诊断基线,并与随机策略空过程对比,我们揭示了一个显著的测量失效现象:尽管学习策略展现出看似较高的传统指标(如奖励公平性常超过0.9),但在ALT变体评估下其表现比随机基线低达81%,该缺陷在双智能体场景中已然存在,并随n增长而加剧。这些结果表明,在此设定下,高聚合收益可能与恶劣的时间协调共存,而传统度量可能严重误判涌现动态。我们的发现强调了分析多智能体博弈中协调行为时需采用时间感知可观测变量,并突出了随机策略基线作为解释协调结果相对于随机水平行为之基础性空过程的重要性。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
多智能体协同研究进展综述: 博弈和控制交叉视角
专知会员服务
53+阅读 · 2025年2月1日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
多智能体博弈学习研究进展
专知会员服务
91+阅读 · 2024年5月5日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员