Equilibrium Selection for Multi-agent Reinforcement Learning: A Unified Framework - 专知论文

会员服务 ·

0

均衡 · 博弈 · 势函数 · 最优 · 随机博弈 ·

Equilibrium Selection for Multi-agent Reinforcement Learning: A Unified Framework

翻译：多智能体强化学习的均衡选择：一个统一框架

Runyu Zhang,Gioele Zardini,Asuman Ozdaglar,Jeff Shamma,Na Li

While multi-agent reinforcement learning (MARL) has produced numerous algorithms that converge to Nash or related equilibria, such equilibria are often non-unique and can exhibit widely varying efficiency. This raises a fundamental question: how can one design learning dynamics that not only converge to equilibrium but also select equilibria with desirable performance, such as high social welfare? In contrast to the MARL literature, equilibrium selection has been extensively studied in normal-form games, where decentralized dynamics are known to converge to potential-maximizing or Pareto-optimal Nash equilibria (NEs). Motivated by these results, we study equilibrium selection in finite-horizon stochastic games. We propose a unified actor-critic framework in which a critic learns state-action value functions, and an actor applies a classical equilibrium-selection rule state-wise, treating learned values as stage-game payoffs. We show that, under standard stochastic stability assumptions, the stochastically stable policies of the resulting dynamics inherit the equilibrium selection properties of the underlying normal-form learning rule. As consequences, we obtain potential-maximizing policies in Markov potential games and Pareto-optimal (Markov perfect) equilibria in general-sum stochastic games, together with sample-based implementation of the framework.

翻译：尽管多智能体强化学习（MARL）已发展出众多收敛至纳什均衡或相关均衡的算法，但此类均衡通常不唯一，且其效率可能存在显著差异。这引出了一个根本性问题：如何设计不仅能收敛至均衡，还能选择具有理想性能（如高社会福利）均衡的学习动态？与MARL文献不同，均衡选择在标准型博弈中已得到广泛研究，其中已知去中心化动态能够收敛至势函数最大化或帕累托最优的纳什均衡（NE）。受这些成果启发，我们研究有限时域随机博弈中的均衡选择问题。我们提出一个统一的行动者-评论家框架：评论家学习状态-动作价值函数，行动者则逐状态应用经典的均衡选择规则，并将学习到的价值视为阶段博弈收益。我们证明，在标准的随机稳定性假设下，所得动态的随机稳定策略继承了底层标准型学习规则的均衡选择特性。作为推论，我们在马尔可夫势博弈中获得了势函数最大化策略，在一般和随机博弈中获得了帕累托最优（马尔可夫完美）均衡，同时给出了该框架的基于样本的实现方法。

0

相关内容

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

50+阅读 · 2025年2月26日

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

专知会员服务

19+阅读 · 2024年10月6日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知会员服务

184+阅读 · 2022年4月30日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

59+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多 Agent 强化学习综述

多 Agent 强化学习综述

AINLP

15+阅读 · 2020年6月4日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于桁架-机构映射的多体系统拓扑优化方法

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Safe Continuous-time Multi-Agent Reinforcement Learning via Epigraph Form

Arxiv

0+阅读 · 2月19日

Graphon Mean-Field Subsampling for Cooperative Heterogeneous Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月18日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Bayesian Ego-graph Inference for Networked Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月13日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月10日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Prism: Spectral Parameter Sharing for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月6日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

50+阅读 · 2025年2月26日

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

专知会员服务

19+阅读 · 2024年10月6日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知会员服务

184+阅读 · 2022年4月30日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

59+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多 Agent 强化学习综述

多 Agent 强化学习综述

AINLP

15+阅读 · 2020年6月4日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Safe Continuous-time Multi-Agent Reinforcement Learning via Epigraph Form

Arxiv

0+阅读 · 2月19日

Graphon Mean-Field Subsampling for Cooperative Heterogeneous Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月18日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Bayesian Ego-graph Inference for Networked Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月13日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月10日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Prism: Spectral Parameter Sharing for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月6日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Arxiv

0+阅读 · 1月14日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于桁架-机构映射的多体系统拓扑优化方法

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员