Spatial public goods games are characterized by high-dimensional state spaces and localized externalities, which pose significant challenges for achieving stable and widespread cooperation. Traditional approaches often struggle to effectively capture neighborhood-level strategic interactions and dynamically align individual incentives with collective welfare. To resolve this issue, this paper introduces a novel intelligent decision-making framework called Local Mean-Field Proximal Policy Optimization with Unbalanced Punishment (LMFPPO-UBP). The conventional mean field concept is reformulated as a socio-statistical sensor embedded directly into the policy gradient space of deep reinforcement learning, allowing agents to adapt their strategies based on mesoscale neighborhood dynamics. Additionally, an unbalanced punishment mechanism is integrated to penalize defectors proportionally to the local density of cooperators, thereby reshaping the payoff structures without imposing direct costs on cooperative agents. Experimental results demonstrate that the LMFPPO-UBP promotes rapid and stable global cooperation even under low enhancement factors, consistently outperforming baseline methods such as Q-learning and Fermi update rules. Statistical analyses further validate the framework's effectiveness in lowering the cooperation threshold and achieving better coordinated outcomes.


翻译:空间公共物品博弈具有高维状态空间和局部外部性的特征,这对实现稳定且广泛的合作构成了重大挑战。传统方法往往难以有效捕捉邻域层面的策略互动,并动态地将个体激励与集体福利相协调。为解决这一问题,本文提出了一种新颖的智能决策框架,称为带非均衡惩罚的局部平均场近端策略优化。传统的平均场概念被重新表述为一种社会统计传感器,直接嵌入深度强化学习的策略梯度空间中,使得智能体能够根据中观尺度的邻域动态调整其策略。此外,框架集成了一个非均衡惩罚机制,该机制根据合作者的局部密度按比例惩罚背叛者,从而在不给合作者施加直接成本的情况下重塑收益结构。实验结果表明,即使在较低的增强因子下,LMFPPO-UBP也能促进快速且稳定的全局合作,其性能持续优于Q学习和费米更新规则等基线方法。统计分析进一步验证了该框架在降低合作阈值和实现更优协调结果方面的有效性。

0
下载
关闭预览

相关内容

《基于图神经网络与强化学习的自主空战决策研究》
专知会员服务
31+阅读 · 2025年5月15日
基于博弈论的弹目攻防决策方法研究
专知会员服务
52+阅读 · 2024年7月11日
博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
26+阅读 · 2024年1月30日
面向智能博弈的决策Transformer方法综述
专知会员服务
200+阅读 · 2023年4月14日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
用于目标定位的全局平均池化
论智
22+阅读 · 2018年8月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
8+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
15+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
11+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
11+阅读 · 4月30日
相关VIP内容
《基于图神经网络与强化学习的自主空战决策研究》
专知会员服务
31+阅读 · 2025年5月15日
基于博弈论的弹目攻防决策方法研究
专知会员服务
52+阅读 · 2024年7月11日
博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
26+阅读 · 2024年1月30日
面向智能博弈的决策Transformer方法综述
专知会员服务
200+阅读 · 2023年4月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员