LMFPPO-UBP: Local Mean Field Proximal Policy Optimization with Unbalanced Punishment for Spatial Public Goods Games - 专知论文

会员服务 ·

0

均衡 · 平均场 · 博弈 · 策略优化 · 近端策略优化 ·

LMFPPO-UBP: Local Mean Field Proximal Policy Optimization with Unbalanced Punishment for Spatial Public Goods Games

翻译：LMFPPO-UBP：用于空间公共物品博弈的带非均衡惩罚的局部平均场近端策略优化

Jinshuo Yang,Zhaoqilin Yang,Wenjie Zhou,Xin Wang,Youliang Tian

Spatial public goods games are characterized by high-dimensional state spaces and localized externalities, which pose significant challenges for achieving stable and widespread cooperation. Traditional approaches often struggle to effectively capture neighborhood-level strategic interactions and dynamically align individual incentives with collective welfare. To resolve this issue, this paper introduces a novel intelligent decision-making framework called Local Mean-Field Proximal Policy Optimization with Unbalanced Punishment (LMFPPO-UBP). The conventional mean field concept is reformulated as a socio-statistical sensor embedded directly into the policy gradient space of deep reinforcement learning, allowing agents to adapt their strategies based on mesoscale neighborhood dynamics. Additionally, an unbalanced punishment mechanism is integrated to penalize defectors proportionally to the local density of cooperators, thereby reshaping the payoff structures without imposing direct costs on cooperative agents. Experimental results demonstrate that the LMFPPO-UBP promotes rapid and stable global cooperation even under low enhancement factors, consistently outperforming baseline methods such as Q-learning and Fermi update rules. Statistical analyses further validate the framework's effectiveness in lowering the cooperation threshold and achieving better coordinated outcomes.

翻译：空间公共物品博弈具有高维状态空间和局部外部性的特征，这对实现稳定且广泛的合作构成了重大挑战。传统方法往往难以有效捕捉邻域层面的策略互动，并动态地将个体激励与集体福利相协调。为解决这一问题，本文提出了一种新颖的智能决策框架，称为带非均衡惩罚的局部平均场近端策略优化。传统的平均场概念被重新表述为一种社会统计传感器，直接嵌入深度强化学习的策略梯度空间中，使得智能体能够根据中观尺度的邻域动态调整其策略。此外，框架集成了一个非均衡惩罚机制，该机制根据合作者的局部密度按比例惩罚背叛者，从而在不给合作者施加直接成本的情况下重塑收益结构。实验结果表明，即使在较低的增强因子下，LMFPPO-UBP也能促进快速且稳定的全局合作，其性能持续优于Q学习和费米更新规则等基线方法。统计分析进一步验证了该框架在降低合作阈值和实现更优协调结果方面的有效性。

0

相关内容

《学习空中格斗：AFSIM中针对配备定向能武器的2v2空战近端策略优化与双深度Q网络对比》90页

《学习空中格斗：AFSIM中针对配备定向能武器的2v2空战近端策略优化与双深度Q网络对比》90页

专知会员服务

32+阅读 · 3月19日

【NTU博士论文】利用强化学习与生成模型推进可靠且可泛化的决策

【NTU博士论文】利用强化学习与生成模型推进可靠且可泛化的决策

专知会员服务

25+阅读 · 2025年9月22日

《基于图神经网络与强化学习的自主空战决策研究》

《基于图神经网络与强化学习的自主空战决策研究》

专知会员服务

31+阅读 · 2025年5月15日

基于博弈论的弹目攻防决策方法研究

基于博弈论的弹目攻防决策方法研究

专知会员服务

52+阅读 · 2024年7月11日

博弈论应用《互补战场上的多场战斗对抗》

博弈论应用《互补战场上的多场战斗对抗》

专知会员服务

26+阅读 · 2024年1月30日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

200+阅读 · 2023年4月14日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

24+阅读 · 2022年4月10日

381页pdf最新书册，《关于非合作博弈论中的协调：阐述均衡如何以及为什么会发生和盛行》

381页pdf最新书册，《关于非合作博弈论中的协调：阐述均衡如何以及为什么会发生和盛行》

专知会员服务

36+阅读 · 2022年4月5日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

专知

15+阅读 · 2022年10月22日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

专知

130+阅读 · 2022年4月4日

详解ORB-SLAM2中的特征均匀提取策略

详解ORB-SLAM2中的特征均匀提取策略

计算机视觉life

11+阅读 · 2019年10月9日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

用于目标定位的全局平均池化

用于目标定位的全局平均池化

论智

22+阅读 · 2018年8月18日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

非平面式多旋翼系统气动布局优化及可修正补偿的控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂市场环境下多阶段不等面积设施动态布局优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 3月7日

Approximately Solving Continuous-Time Mean Field Games with Finite State Spaces

Arxiv

0+阅读 · 2月26日

Recurrent Structural Policy Gradient for Partially Observable Mean Field Games

Arxiv

0+阅读 · 2月23日

Equilibria in Large Position-Optimization Games

Arxiv

0+阅读 · 2月16日

Verifying Equilibria in Finite-Horizon Probabilistic Concurrent Game Systems

Arxiv

0+阅读 · 2月13日

Robust Mean-Field Games with Risk Aversion and Bounded Rationality

Arxiv

0+阅读 · 2月13日

Bench-MFG: A Benchmark Suite for Learning in Stationary Mean Field Games

Arxiv

0+阅读 · 2月13日

A Policy Iteration Method for Inverse Mean Field Games

Arxiv

0+阅读 · 2月11日

MAFE: Enabling Equitable Algorithm Design in Multi-Agent Multi-Stage Decision-Making Systems

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

近端策略优化

最新内容

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

专知会员服务

5+阅读 · 今天4:33

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

4+阅读 · 5月1日

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

8+阅读 · 5月1日

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

15+阅读 · 5月1日

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

6+阅读 · 5月1日

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

6+阅读 · 5月1日

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

6+阅读 · 5月1日

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

11+阅读 · 5月1日

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

9+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

7+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

11+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

21+阅读 · 4月30日

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

9+阅读 · 4月30日

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

16+阅读 · 4月30日

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

11+阅读 · 4月30日

相关VIP内容

《学习空中格斗：AFSIM中针对配备定向能武器的2v2空战近端策略优化与双深度Q网络对比》90页

《学习空中格斗：AFSIM中针对配备定向能武器的2v2空战近端策略优化与双深度Q网络对比》90页

专知会员服务

32+阅读 · 3月19日

【NTU博士论文】利用强化学习与生成模型推进可靠且可泛化的决策

【NTU博士论文】利用强化学习与生成模型推进可靠且可泛化的决策

专知会员服务

25+阅读 · 2025年9月22日

《基于图神经网络与强化学习的自主空战决策研究》

《基于图神经网络与强化学习的自主空战决策研究》

专知会员服务

31+阅读 · 2025年5月15日

基于博弈论的弹目攻防决策方法研究

基于博弈论的弹目攻防决策方法研究

专知会员服务

52+阅读 · 2024年7月11日

博弈论应用《互补战场上的多场战斗对抗》

博弈论应用《互补战场上的多场战斗对抗》

专知会员服务

26+阅读 · 2024年1月30日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

200+阅读 · 2023年4月14日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

24+阅读 · 2022年4月10日

381页pdf最新书册，《关于非合作博弈论中的协调：阐述均衡如何以及为什么会发生和盛行》

381页pdf最新书册，《关于非合作博弈论中的协调：阐述均衡如何以及为什么会发生和盛行》

专知会员服务

36+阅读 · 2022年4月5日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

Palantir AIP平台：连接智能体与决策

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

《图世界模型：概念、分类体系与未来方向》

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

专知

15+阅读 · 2022年10月22日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

专知

130+阅读 · 2022年4月4日

详解ORB-SLAM2中的特征均匀提取策略

详解ORB-SLAM2中的特征均匀提取策略

计算机视觉life

11+阅读 · 2019年10月9日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

用于目标定位的全局平均池化

用于目标定位的全局平均池化

论智

22+阅读 · 2018年8月18日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

相关论文

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 3月7日

Approximately Solving Continuous-Time Mean Field Games with Finite State Spaces

Arxiv

0+阅读 · 2月26日

Recurrent Structural Policy Gradient for Partially Observable Mean Field Games

Arxiv

0+阅读 · 2月23日

Equilibria in Large Position-Optimization Games

Arxiv

0+阅读 · 2月16日

Verifying Equilibria in Finite-Horizon Probabilistic Concurrent Game Systems

Arxiv

0+阅读 · 2月13日

Robust Mean-Field Games with Risk Aversion and Bounded Rationality

Arxiv

0+阅读 · 2月13日

Bench-MFG: A Benchmark Suite for Learning in Stationary Mean Field Games

Arxiv

0+阅读 · 2月13日

A Policy Iteration Method for Inverse Mean Field Games

Arxiv

0+阅读 · 2月11日

MAFE: Enabling Equitable Algorithm Design in Multi-Agent Multi-Stage Decision-Making Systems

Arxiv

0+阅读 · 2月7日

相关基金

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

非平面式多旋翼系统气动布局优化及可修正补偿的控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂市场环境下多阶段不等面积设施动态布局优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员