Provably Convergent Actor-Critic in Risk-averse MARL - 专知论文

会员服务 ·

0

博弈 · 时间尺度 · 均衡 · 正则性 · 多智能体强化学习 ·

Provably Convergent Actor-Critic in Risk-averse MARL

翻译：可证明收敛的风险规避多智能体强化学习中的行动者-评论家方法

Yizhou Zhang,Eric Mazumdar

Learning stationary policies in infinite-horizon general-sum Markov games (MGs) remains a fundamental open problem in Multi-Agent Reinforcement Learning (MARL). While stationary strategies are preferred for their practicality, computing stationary forms of classic game-theoretic equilibria is computationally intractable -- a stark contrast to the comparative ease of solving single-agent RL or zero-sum games. To bridge this gap, we study Risk-averse Quantal response Equilibria (RQE), a solution concept rooted in behavioral game theory that incorporates risk aversion and bounded rationality. We demonstrate that RQE possesses strong regularity conditions that make it uniquely amenable to learning in MGs. We propose a novel two-timescale Actor-Critic algorithm characterized by a fast-timescale actor and a slow-timescale critic. Leveraging the regularity of RQE, we prove that this approach achieves global convergence with finite-sample guarantees. We empirically validate our algorithm in several environments to demonstrate superior convergence properties compared to risk-neutral baselines.

翻译：在无限时域一般和马尔可夫博弈中学习平稳策略仍然是多智能体强化学习领域一个基本的开放性问题。尽管平稳策略因其实用性而备受青睐，但计算经典博弈论均衡的平稳形式在计算上是不可行的——这与求解单智能体强化学习或零和博弈的相对容易性形成鲜明对比。为弥合这一差距，我们研究了风险规避量化响应均衡，这是一种植根于行为博弈论的解概念，它融合了风险规避和有限理性。我们证明RQE具备强大的正则性条件，使其特别适合在马尔可夫博弈中进行学习。我们提出了一种新颖的双时间尺度行动者-评论家算法，其特点在于快时间尺度的行动者和慢时间尺度的评论家。利用RQE的正则性，我们证明了该方法能在有限样本保证下实现全局收敛。我们在多个环境中通过实验验证了我们的算法，结果表明其相较于风险中性基线方法具有更优的收敛特性。

0

相关内容

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

50+阅读 · 2025年2月26日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

56+阅读 · 2024年8月3日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

专知会员服务

30+阅读 · 2023年6月18日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

专知会员服务

46+阅读 · 2022年11月10日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知会员服务

184+阅读 · 2022年4月30日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Partially Observable Multi-Agent Reinforcement Learning with Information Sharing

Arxiv

0+阅读 · 3月12日

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月10日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 3月7日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

Arxiv

0+阅读 · 2月24日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 2月24日

Safe Continuous-time Multi-Agent Reinforcement Learning via Epigraph Form

Arxiv

0+阅读 · 2月19日

Convergence and Connectivity: Dynamics of Multi-Agent Q-Learning in Random Networks

Arxiv

0+阅读 · 2月10日

Provable Cooperative Multi-Agent Exploration for Reward-Free MDPs

Arxiv

0+阅读 · 2月7日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

VIP会员

文章信息

相关主题

多智能体强化学习

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

50+阅读 · 2025年2月26日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

56+阅读 · 2024年8月3日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

专知会员服务

30+阅读 · 2023年6月18日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

专知会员服务

46+阅读 · 2022年11月10日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知会员服务

184+阅读 · 2022年4月30日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

相关论文

Partially Observable Multi-Agent Reinforcement Learning with Information Sharing

Arxiv

0+阅读 · 3月12日

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月10日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 3月7日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

Arxiv

0+阅读 · 2月24日

Probing Dec-POMDP Reasoning in Cooperative MARL

Arxiv

0+阅读 · 2月24日

Safe Continuous-time Multi-Agent Reinforcement Learning via Epigraph Form

Arxiv

0+阅读 · 2月19日

Convergence and Connectivity: Dynamics of Multi-Agent Q-Learning in Random Networks

Arxiv

0+阅读 · 2月10日

Provable Cooperative Multi-Agent Exploration for Reward-Free MDPs

Arxiv

0+阅读 · 2月7日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员