Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning - 专知论文

会员服务 ·

0

协同 · 多智能体协同 · 智能体 · 协作 · 最优 ·

Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning

翻译：基于自动机条件的多智能体协同强化学习

Beyazit Yalcinkaya,Marcell Vazquez-Chanlatte,Ameesh Shah,Hanna Krasowski,Sanjit A. Seshia

We study learning multi-task, multi-agent policies for cooperative, temporal objectives, under centralized training, decentralized execution. In this setting, using automata to represent tasks assigned to agents enables breaking down a team-level objective into simpler, smaller sub-tasks. However, existing approaches remain sample-inefficient and are limited to the single-task case, requiring retraining policies for each new task. In this work, we present Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning (ACC-MARL), a framework for learning task-conditioned, decentralized team policies. We identify challenges to the feasibility of ACC-MARL, propose solutions, and prove that our approach is optimal. We further show that learned value functions can be used to assign tasks optimally at test time. Experiments demonstrate emergent task-aware, multi-step coordination among agents, such as pressing a button to unlock a door, holding the door, and short-circuiting tasks.

翻译：我们研究在集中训练、分散执行的框架下，学习面向协作时序目标的多任务多智能体策略。在该场景中，利用自动机表示分配给智能体的任务，能够将团队层级的目标分解为更简单、更小的子任务。然而，现有方法仍存在样本效率低下的问题，且局限于单任务场景——每遇到新任务都需要重新训练策略。为此，我们提出基于自动机条件的多智能体协同强化学习（ACC-MARL），一种学习任务条件化分散式团队策略的框架。我们识别了ACC-MARL可行性面临的挑战，提出解决方案，并证明该方法具有最优性。进一步研究表明，训练获得的价值函数可在测试阶段用于最优任务分配。实验展现了智能体间涌现的任务感知型多步协作能力，例如按压按钮解锁门、扶持门以及短路任务等行为。

0

相关内容

多智能体协作机制

多智能体协作机制

专知会员服务

25+阅读 · 4月25日

《基于智能体的自组织任务分配：面向涌现型多智能体系统的强化学习》260页

《基于智能体的自组织任务分配：面向涌现型多智能体系统的强化学习》260页

专知会员服务

48+阅读 · 2025年5月6日

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

42+阅读 · 2025年4月18日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

35+阅读 · 2025年1月19日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

48+阅读 · 2024年8月20日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

64+阅读 · 2024年4月16日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

142+阅读 · 2023年9月5日

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

159+阅读 · 2023年5月4日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Contract-Based Compositional Shielding for Safe Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月12日

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

Arxiv

0+阅读 · 6月11日

Multi-agent rendezvous in fluid flows via reinforcement learning

Arxiv

0+阅读 · 6月9日

Learning Multi-Agent Communication Protocol: Study on Information Entropy Efficiency in MARL

Arxiv

0+阅读 · 6月5日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

An Agent-Centric Dynamical Systems Perspective on Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition

Arxiv

0+阅读 · 5月28日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Multi-Agent Coordination Adaptation via Structure-Guided Orchestration

Arxiv

0+阅读 · 5月25日

A Survey of Progress on Cooperative Multi-agent Reinforcement Learning in Open Environment

Arxiv

39+阅读 · 2023年12月2日

VIP会员

文章信息

相关主题

多智能体协同

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

9+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

3+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

7+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

9+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

4+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

8+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

6+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

6+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

6+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

4+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

12+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

11+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

6+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

9+阅读 · 7月31日

相关VIP内容

多智能体协作机制

多智能体协作机制

专知会员服务

25+阅读 · 4月25日

《基于智能体的自组织任务分配：面向涌现型多智能体系统的强化学习》260页

《基于智能体的自组织任务分配：面向涌现型多智能体系统的强化学习》260页

专知会员服务

48+阅读 · 2025年5月6日

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

42+阅读 · 2025年4月18日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

35+阅读 · 2025年1月19日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

48+阅读 · 2024年8月20日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

64+阅读 · 2024年4月16日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

142+阅读 · 2023年9月5日

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

159+阅读 · 2023年5月4日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Contract-Based Compositional Shielding for Safe Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月12日

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

Arxiv

0+阅读 · 6月11日

Multi-agent rendezvous in fluid flows via reinforcement learning

Arxiv

0+阅读 · 6月9日

Learning Multi-Agent Communication Protocol: Study on Information Entropy Efficiency in MARL

Arxiv

0+阅读 · 6月5日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

An Agent-Centric Dynamical Systems Perspective on Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition

Arxiv

0+阅读 · 5月28日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Multi-Agent Coordination Adaptation via Structure-Guided Orchestration

Arxiv

0+阅读 · 5月25日

A Survey of Progress on Cooperative Multi-agent Reinforcement Learning in Open Environment

Arxiv

39+阅读 · 2023年12月2日

相关基金

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员