Mean-field reinforcement learning (MF-RL) scales multi-agent RL to large populations by reducing each agent's dependence on others to a single summary statistic -- the mean action. However, this reduction requires every agent to act at every time step; when some agents are idle, the mean action is simply undefined. Addressing asynchrony therefore requires a different summary statistic -- one that remains defined regardless of which agents act. The population distribution $μ\in Δ(\mathcal{O})$ -- the fraction of agents at each observation -- satisfies this requirement: its dimension is independent of $N$, and under exchangeability it fully determines each agent's reward and transition. Existing MF-RL theory, however, is built on the mean action and does not extend to $μ$. We therefore construct the Temporal Mean Field (TMF) framework around the population distribution $μ$ from scratch, covering the full spectrum from fully synchronous to purely sequential decision-making within a single theory. We prove existence and uniqueness of TMF equilibria, establish an $O(1/\sqrt{N})$ finite-population approximation bound that holds regardless of how many agents act per step, and prove convergence of a policy gradient algorithm (TMF-PG) to the unique equilibrium. Experiments on a resource selection game and a dynamic queueing game confirm that TMF-PG achieves near-identical performance whether one agent or all $N$ act per step, with approximation error decaying at the predicted $O(1/\sqrt{N})$ rate.


翻译:均值场强化学习(MF-RL)通过将每个智能体对其他智能体的依赖简化为单一汇总统计量——平均动作,将多智能体强化学习扩展到大规模群体。然而,这种简化要求每个智能体在每个时间步都采取行动;当部分智能体处于闲置状态时,平均动作便无法定义。因此,处理异步性需要一种不同的汇总统计量——一种无论哪些智能体行动都能保持定义的统计量。群体分布 $μ\in Δ(\mathcal{O})$——即处于每个观测状态的智能体比例——满足此要求:其维度与 $N$ 无关,且在可交换性条件下,它完全决定了每个智能体的奖励与状态转移。然而,现有的 MF-RL 理论建立在平均动作的基础上,无法推广到 $μ$。为此,我们围绕群体分布 $μ$ 从头构建了时序均值场(TMF)框架,该框架在单一理论内涵盖了从完全同步到纯序贯决策的完整谱系。我们证明了 TMF 均衡的存在性与唯一性,建立了一个与每步行动的智能体数量无关的 $O(1/\sqrt{N})$ 有限群体近似界,并证明了策略梯度算法(TMF-PG)收敛于唯一均衡。在资源选择博弈和动态排队博弈上的实验证实,无论每步有一个智能体还是全部 $N$ 个智能体行动,TMF-PG 都能达到近乎相同的性能,且近似误差以理论预测的 $O(1/\sqrt{N})$ 速率衰减。

0
下载
关闭预览

相关内容

《深度强化学习在集群系统中的应用》31页论文
专知会员服务
60+阅读 · 2023年3月14日
强化学习的简要总结,18页pdf
专知会员服务
58+阅读 · 2023年1月7日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
28+阅读 · 2020年10月8日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员