Value function factorization via centralized training and decentralized execution is promising for solving cooperative multi-agent reinforcement tasks. One of the approaches in this area, QMIX, has become state-of-the-art and achieved the best performance on the StarCraft II micromanagement benchmark. However, the monotonic-mixing of per agent estimates in QMIX is known to restrict the joint action Q-values it can represent, as well as the insufficient global state information for single agent value function estimation, often resulting in suboptimality. To this end, we present LSF-SAC, a novel framework that features a variational inference-based information-sharing mechanism as extra state information to assist individual agents in the value function factorization. We demonstrate that such latent individual state information sharing can significantly expand the power of value function factorization, while fully decentralized execution can still be maintained in LSF-SAC through a soft-actor-critic design. We evaluate LSF-SAC on the StarCraft II micromanagement challenge and demonstrate that it outperforms several state-of-the-art methods in challenging collaborative tasks. We further set extensive ablation studies for locating the key factors accounting for its performance improvements. We believe that this new insight can lead to new local value estimation methods and variational deep learning algorithms. A demo video and code of implementation can be found at https://sites.google.com/view/sacmm.


翻译:通过集中培训和分散执行,价值函数因子化,对于解决合作性多试剂强化任务来说是很有希望的。在这方面,我们提出了一个新的框架,即QMIX,它是一个基于变式推断的信息共享机制,是协助单个代理人实现价值函数因子化的额外国家信息。我们证明,这种潜在的单个国家信息共享可以大大扩大价值函数因子化的力量,同时仍然可以通过软操作器-逻辑设计在LSF-SAC中保持完全分散的执行。我们评估StarCraft二号微管理挑战的LSF-SAC和SAC,并表明它超越了若干基于变式推断的信息共享机制,作为协助单个代理人实现价值函数因子化的额外信息。我们证明,这种潜在的单个国家信息共享可以大大扩展价值函数因子化的能量,同时仍然可以通过软操作器-控点-逻辑设计在LSF-SAC中保持完全分散的执行。我们可以进一步评估StarCraft II号微管理挑战,并表明它超越了几个基于变式的状态-艺术的信息共享机制,用以协助个别代理人因子化而具有挑战性能变化的系统化会计。我们找到了新的系统化的系统化的系统化的系统化方法。我们发现,我们可以进一步的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化方法,可以用来来进行。我们化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统化的系统

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员