We study learning multi-task, multi-agent policies for cooperative, temporal objectives, under centralized training, decentralized execution. In this setting, using automata to represent tasks assigned to agents enables breaking down a team-level objective into simpler, smaller sub-tasks. However, existing approaches remain sample-inefficient and are limited to the single-task case, requiring retraining policies for each new task. In this work, we present Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning (ACC-MARL), a framework for learning task-conditioned, decentralized team policies. We identify challenges to the feasibility of ACC-MARL, propose solutions, and prove that our approach is optimal. We further show that learned value functions can be used to assign tasks optimally at test time. Experiments demonstrate emergent task-aware, multi-step coordination among agents, such as pressing a button to unlock a door, holding the door, and short-circuiting tasks.


翻译:我们研究在集中训练、分散执行的框架下,学习面向协作时序目标的多任务多智能体策略。在该场景中,利用自动机表示分配给智能体的任务,能够将团队层级的目标分解为更简单、更小的子任务。然而,现有方法仍存在样本效率低下的问题,且局限于单任务场景——每遇到新任务都需要重新训练策略。为此,我们提出基于自动机条件的多智能体协同强化学习(ACC-MARL),一种学习任务条件化分散式团队策略的框架。我们识别了ACC-MARL可行性面临的挑战,提出解决方案,并证明该方法具有最优性。进一步研究表明,训练获得的价值函数可在测试阶段用于最优任务分配。实验展现了智能体间涌现的任务感知型多步协作能力,例如按压按钮解锁门、扶持门以及短路任务等行为。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
42+阅读 · 2025年4月18日
开放环境下的协作多智能体强化学习进展综述
专知会员服务
34+阅读 · 2025年1月19日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员