Independent and Decentralized Learning in Markov Potential Games - 专知论文

会员服务 ·

0

势博弈 · 学习动态 · Q函数 · 博弈 · 纳什均衡 ·

2023 年 4 月 19 日

Independent and Decentralized Learning in Markov Potential Games

翻译：独立与去中心化马尔可夫势博弈中的学习

Chinmay Maheshwari,Manxi Wu,Druv Pai,Shankar Sastry

from arxiv, 44 pages, 5 figures

We propose a multi-agent reinforcement learning dynamics, and analyze its convergence in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players do not have knowledge of the game model and cannot coordinate. In each stage, players update their estimate of a perturbed Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating a smoothed optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to a stationary Nash equilibrium in Markov potential games with probability 1. Our results highlight the efficacy of simple learning dynamics in reaching a stationary Nash equilibrium even in environments with minimal information available.

翻译：我们提出了一种多智能体强化学习动力学，并分析了其在无限时域折扣马尔可夫势博弈中的收敛性。我们聚焦于独立且去中心化的环境，其中智能体不了解博弈模型且无法进行协调。在每个阶段，智能体以异步方式基于实现的单阶段回报更新其对扰动Q函数的估计，该Q函数评估其总条件收益。随后，智能体通过基于估计的Q函数融入平滑的最优单阶段偏差策略，独立更新其策略。该学习动力学的一个关键特征是Q函数估计的更新速度比策略更新更快。我们证明了由我们的学习动力学诱导的策略以概率1收敛到马尔可夫势博弈中的平稳纳什均衡。我们的结果凸显了即使在信息最匮乏的环境中，简单的学习动力学也能有效收敛至平稳纳什均衡。

0

相关内容

势博弈

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

专知会员服务

31+阅读 · 2022年11月5日

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

专知会员服务

54+阅读 · 2022年6月14日

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

232+阅读 · 2022年2月3日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

[ICML2020]层次间消息传递的分子图学习

[ICML2020]层次间消息传递的分子图学习

专知会员服务

34+阅读 · 2020年6月27日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

网络演化博弈实验中的策略学习动力学与相变问题研究

国家自然科学基金

5+阅读 · 2014年12月31日

随机双曲型偏微分方程的控制和观测

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下多因变量回归模型的统计推断

国家自然科学基金

5+阅读 · 2013年12月31日

兰属附生植物的水分适应特征

国家自然科学基金

0+阅读 · 2012年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

高维数据的非参数经验贝叶斯方法

国家自然科学基金

1+阅读 · 2012年12月31日

具有竞争行为的公路合作运输决策研究

国家自然科学基金

0+阅读 · 2012年12月31日

带Lé跳马氏过程的耦合性质

国家自然科学基金

0+阅读 · 2011年12月31日

基于"非监督-监督-激励"集成学习模式的机器人行为自主学习系统研究

国家自然科学基金

1+阅读 · 2010年12月31日

随机微分方程的逼近

国家自然科学基金

0+阅读 · 2009年12月31日

CRS-FL: Conditional Random Sampling for Communication-Efficient and Privacy-Preserving Federated Learning

Arxiv

0+阅读 · 2023年6月7日

Sequential Principal-Agent Problems with Communication: Efficient Computation and Learning

Arxiv

0+阅读 · 2023年6月6日

A Communication-efficient Algorithm with Linear Convergence for Federated Minimax Learning

Arxiv

0+阅读 · 2023年6月6日

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

Arxiv

0+阅读 · 2023年6月6日

A Communication-Efficient Adaptive Algorithm for Federated Learning under Cumulative Regret

Arxiv

0+阅读 · 2023年6月5日

Networked Communication for Decentralised Agents in Mean-Field Games

Arxiv

0+阅读 · 2023年6月5日

The conflict between self-interaction and updating passivity in the evolution of cooperation

Arxiv

0+阅读 · 2023年6月3日

A Decentralized Alternating Gradient Method for Communication-Efficient Bilevel Programming

Arxiv

0+阅读 · 2023年6月2日

MNL-Bandit in non-stationary environments

Arxiv

0+阅读 · 2023年6月2日

Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games

Arxiv

41+阅读 · 2021年9月15日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

专知会员服务

31+阅读 · 2022年11月5日

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

专知会员服务

54+阅读 · 2022年6月14日

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

232+阅读 · 2022年2月3日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

132+阅读 · 2021年4月25日

[ICML2020]层次间消息传递的分子图学习

[ICML2020]层次间消息传递的分子图学习

专知会员服务

34+阅读 · 2020年6月27日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

相关论文

CRS-FL: Conditional Random Sampling for Communication-Efficient and Privacy-Preserving Federated Learning

Arxiv

0+阅读 · 2023年6月7日

Sequential Principal-Agent Problems with Communication: Efficient Computation and Learning

Arxiv

0+阅读 · 2023年6月6日

A Communication-efficient Algorithm with Linear Convergence for Federated Minimax Learning

Arxiv

0+阅读 · 2023年6月6日

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

Arxiv

0+阅读 · 2023年6月6日

A Communication-Efficient Adaptive Algorithm for Federated Learning under Cumulative Regret

Arxiv

0+阅读 · 2023年6月5日

Networked Communication for Decentralised Agents in Mean-Field Games

Arxiv

0+阅读 · 2023年6月5日

The conflict between self-interaction and updating passivity in the evolution of cooperation

Arxiv

0+阅读 · 2023年6月3日

A Decentralized Alternating Gradient Method for Communication-Efficient Bilevel Programming

Arxiv

0+阅读 · 2023年6月2日

MNL-Bandit in non-stationary environments

Arxiv

0+阅读 · 2023年6月2日

Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games

Arxiv

41+阅读 · 2021年9月15日

相关基金

网络演化博弈实验中的策略学习动力学与相变问题研究

国家自然科学基金

5+阅读 · 2014年12月31日

随机双曲型偏微分方程的控制和观测

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下多因变量回归模型的统计推断

国家自然科学基金

5+阅读 · 2013年12月31日

兰属附生植物的水分适应特征

国家自然科学基金

0+阅读 · 2012年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

高维数据的非参数经验贝叶斯方法

国家自然科学基金

1+阅读 · 2012年12月31日

具有竞争行为的公路合作运输决策研究

国家自然科学基金

0+阅读 · 2012年12月31日

带Lé跳马氏过程的耦合性质

国家自然科学基金

0+阅读 · 2011年12月31日

基于"非监督-监督-激励"集成学习模式的机器人行为自主学习系统研究

国家自然科学基金

1+阅读 · 2010年12月31日

随机微分方程的逼近

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员