We present a novel Diffusion Offline Multi-agent Model (DOM2) for offline Multi-Agent Reinforcement Learning (MARL). Different from existing algorithms that rely mainly on conservatism in policy design, DOM2 enhances policy expressiveness and diversity based on diffusion model. Specifically, we incorporate a diffusion model into the policy network and propose a trajectory-based data-reweighting scheme in training. These key ingredients significantly improve algorithm robustness against environment changes and achieve significant improvements in performance, generalization and data-efficiency. Our extensive experimental results demonstrate that DOM2 outperforms existing state-of-the-art methods in all multi-agent particle and multi-agent MuJoCo environments, and generalizes significantly better to shifted environments {(in $28$ out of $30$ settings evaluated)} thanks to its high expressiveness and diversity. Moreover, DOM2 is ultra data efficient and requires no more than $5\%$ data for achieving the same performance compared to existing algorithms (a $20\times$ improvement in data efficiency).


翻译:我们提出了一种新颖的扩散离线多智能体模型(Diffusion Offline Multi-agent Model, DOM2),用于解决离线多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)问题。与现有主要依赖策略设计中保守性的算法不同,DOM2基于扩散模型增强了策略的表达能力与多样性。具体而言,我们将扩散模型融入策略网络,并在训练中提出了一种基于轨迹的数据重加权方案。这些关键要素显著提升了算法对环境变化的鲁棒性,并在性能、泛化能力与数据效率方面取得了显著改进。大量实验结果表明,在所有多智能体粒子与多智能体MuJoCo环境中,DOM2均优于现有最先进方法;由于其高表达力与多样性,DOM2在迁移环境(在所评估的$30$个设置中有$28$个)中展现出明显更优的泛化能力。此外,DOM2具有超高的数据效率:与现有算法相比,达到相同性能所需数据不超过$5\%$(数据效率提升$20$倍)。

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
《多智能体强化学习:基础与现代方法》2023最新320页书稿
专知会员服务
129+阅读 · 2023年10月26日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员