We study provable multi-agent reinforcement learning (RL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intractable oracles, we advocate leveraging the potential \emph{information-sharing} among agents, a common practice in empirical multi-agent RL, and a standard model for multi-agent control systems with communication. We first establish several computational complexity results to justify the necessity of information-sharing, as well as the observability assumption that has enabled quasi-polynomial time and sample single-agent RL with partial observations, for tractably solving POSGs. Inspired by the inefficiency of planning in the ground-truth model, we then propose to further \emph{approximate} the shared common information to construct an approximate model of the POSG, in which an approximate \emph{equilibrium} (of the original POSG) can be found in quasi-polynomial-time, under the aforementioned assumptions. Furthermore, we develop a partially observable multi-agent RL algorithm whose time and sample complexities are \emph{both} quasi-polynomial. Finally, beyond equilibrium learning, we extend our algorithmic framework to finding the \emph{team-optimal solution} in cooperative POSGs, i.e., decentralized partially observable Markov decision processes, a more challenging goal. We establish concrete computational and sample complexities under several structural assumptions of the model. We hope our study could open up the possibilities of leveraging and even designing different \emph{information structures}, a well-studied notion in control theory, for developing both sample- and computation-efficient partially observable multi-agent RL.


翻译:我们研究了部分可观测随机博弈(POSGs)一般框架下可证明的多智能体强化学习(RL)。为了规避已知的硬度结果以及计算上难以处理的预言机的使用,我们主张利用智能体之间潜在的信息共享——这是经验性多智能体RL中的常见做法,也是具有通信的多智能体控制系统的标准模型。我们首先建立了若干计算复杂性结果,以证明信息共享的必要性,以及使得具有部分观测的单智能体RL能够在拟多项式时间和样本复杂度内实现的观测性假设,对于可处理地求解POSGs是必需的。受在真实模型中规划效率低下的启发,我们进一步提出近似共享的公共信息,以构建POSG的一个近似模型。在上述假设下,可以在该近似模型中以拟多项式时间找到原始POSG的一个近似均衡。此外,我们开发了一种部分可观测多智能体RL算法,其时间和样本复杂度均为拟多项式。最后,除了均衡学习之外,我们将算法框架扩展到在合作性POSGs(即分散式部分可观测马尔可夫决策过程)中寻找团队最优解——这是一个更具挑战性的目标。我们在模型的若干结构性假设下,建立了具体的计算和样本复杂度。我们希望我们的研究能够开启利用甚至设计不同的信息结构(控制理论中一个被深入研究的概念)的可能性,以开发样本和计算高效的部分可观测多智能体RL。

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
62+阅读 · 2025年2月14日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
64+阅读 · 2024年6月9日
【UIUC博士论文】高效多智能体深度强化学习,130页pdf
专知会员服务
75+阅读 · 2023年1月14日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
10+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
14+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
13+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
62+阅读 · 2025年2月14日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
64+阅读 · 2024年6月9日
【UIUC博士论文】高效多智能体深度强化学习,130页pdf
专知会员服务
75+阅读 · 2023年1月14日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员