Mixed-motive scenarios are ubiquitous in real-world multi-agent interactions, where self-interested agents often defect for immediate rewards, overlooking the potential of altruistic cooperation to improve long-term gains and collective welfare. Peer punishment can deter defection, but as costly second-order altruism, its persistent imposition may undermine the punisher's interests. Existing approaches often struggle to effectively implement punishment to promote cooperation. To balance the efficacy and cost of punishment, we propose Adaptive Punishment for Cooperation (APC), a distributed method that determines punishment intensity based on both a dynamic punishment probability and the severity of defection. This dynamic probability substantially reduces costly and ineffective punishment while also promotes cooperation. To accurately assess defection and its severity, we use a defection awareness module, whose learning is guided by game reward. Theoretical analysis and empirical results show APC performs effectively in iterated public goods game. Empirically, APC also significantly outperforms existing baselines across sequential social dilemmas, learning rational and effective punishment policies that foster cooperation by strategically deterring defection.


翻译:混合动机场景在现实世界的多智能体交互中普遍存在,其中自私的智能体常因追求即时回报而选择背叛,忽视了利他合作对提升长期收益和集体福利的潜力。同伴惩罚可以遏制背叛行为,但作为高成本的二阶利他主义,其持续施加可能损害惩罚者的利益。现有方法往往难以有效实施惩罚以促进合作。为平衡惩罚的有效性与成本,我们提出促进合作的自适应惩罚机制(APC),这是一种分布式方法,基于动态惩罚概率和背叛严重程度共同确定惩罚强度。该动态概率显著减少了高成本且无效的惩罚,同时促进了合作。为准确评估背叛行为及其严重程度,我们采用了一个由博弈奖励引导学习的背叛感知模块。理论分析与实证结果表明,APC在迭代公共品博弈中表现高效。在实验层面,APC在序贯社会困境中显著优于现有基线方法,学习到了理性且有效的惩罚策略,通过策略性遏制背叛来促进合作。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
《多智能体强化学习的深度合作策略》最新154页博士论文
专知会员服务
64+阅读 · 2024年11月18日
博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
27+阅读 · 2024年1月30日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
干货!自然语言处理中的自注意力机制!
全球人工智能
11+阅读 · 2018年3月27日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
5+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
2+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
《多智能体强化学习的深度合作策略》最新154页博士论文
专知会员服务
64+阅读 · 2024年11月18日
博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
27+阅读 · 2024年1月30日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员