Learning stationary policies in infinite-horizon general-sum Markov games (MGs) remains a fundamental open problem in Multi-Agent Reinforcement Learning (MARL). While stationary strategies are preferred for their practicality, computing stationary forms of classic game-theoretic equilibria is computationally intractable -- a stark contrast to the comparative ease of solving single-agent RL or zero-sum games. To bridge this gap, we study Risk-averse Quantal response Equilibria (RQE), a solution concept rooted in behavioral game theory that incorporates risk aversion and bounded rationality. We demonstrate that RQE possesses strong regularity conditions that make it uniquely amenable to learning in MGs. We propose a novel two-timescale Actor-Critic algorithm characterized by a fast-timescale actor and a slow-timescale critic. Leveraging the regularity of RQE, we prove that this approach achieves global convergence with finite-sample guarantees. We empirically validate our algorithm in several environments to demonstrate superior convergence properties compared to risk-neutral baselines.


翻译:在无限时域一般和马尔可夫博弈中学习平稳策略仍然是多智能体强化学习领域一个基本的开放性问题。尽管平稳策略因其实用性而备受青睐,但计算经典博弈论均衡的平稳形式在计算上是不可行的——这与求解单智能体强化学习或零和博弈的相对容易性形成鲜明对比。为弥合这一差距,我们研究了风险规避量化响应均衡,这是一种植根于行为博弈论的解概念,它融合了风险规避和有限理性。我们证明RQE具备强大的正则性条件,使其特别适合在马尔可夫博弈中进行学习。我们提出了一种新颖的双时间尺度行动者-评论家算法,其特点在于快时间尺度的行动者和慢时间尺度的评论家。利用RQE的正则性,我们证明了该方法能在有限样本保证下实现全局收敛。我们在多个环境中通过实验验证了我们的算法,结果表明其相较于风险中性基线方法具有更优的收敛特性。

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
27+阅读 · 2025年11月17日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
27+阅读 · 2025年11月17日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
相关资讯
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员