MARLIN: Multi-Agent Reinforcement Learning Guided by Language-Based Inter-Robot Negotiation - 专知论文

会员服务 ·

0

多智能体强化学习 · 交互 · 语言模型 · 强化学习 · 多智能体 ·

MARLIN: Multi-Agent Reinforcement Learning Guided by Language-Based Inter-Robot Negotiation

翻译：MARLIN：基于语言交互协商的多智能体强化学习框架

Toby Godfrey,William Hunt,Mohammad D. Soorati

from arxiv, 15 pages, 8 figures, 1 table

Multi-agent reinforcement learning is a key method for training multi-robot systems. Through rewarding or punishing robots over a series of episodes according to their performance, they can be trained and then deployed in the real world. However, poorly trained policies can lead to unsafe behaviour during early training stages. We introduce Multi-Agent Reinforcement Learning guided by language-based Inter-robot Negotiation (MARLIN), a hybrid framework in which large language models provide high-level planning before the reinforcement learning policy has learned effective behaviours. Robots use language models to negotiate actions and generate plans that guide policy learning. The system dynamically switches between reinforcement learning and language-model-based negotiation during training, enabling safer and more effective exploration. MARLIN is evaluated using both simulated and physical robots with local and remote language models. Results show that, compared to standard multi-agent reinforcement learning, the hybrid approach achieves higher performance in early training without reducing final performance. The code is available at https://github.com/SooratiLab/MARLIN.

翻译：多智能体强化学习是训练多机器人系统的关键技术。通过根据机器人序列任务中的表现给予奖惩，可使其完成训练并部署于真实环境。然而，早期训练阶段中未经充分优化的策略可能导致不安全行为。本文提出基于语言交互协商的多智能体强化学习框架（MARLIN），该混合架构在强化学习策略尚未掌握有效行为时，利用大语言模型进行高层规划。机器人通过语言模型协商行动并生成引导策略学习的规划方案。系统在训练过程中动态切换强化学习与基于语言模型的协商机制，实现更安全高效的探索。采用本地及远程语言模型，分别在仿真环境和实体机器人上对MARLIN进行评估。结果表明，与标准多智能体强化学习相比，该混合方法在早期训练阶段获得更高性能，且不降低最终性能。代码开源见：https://github.com/SooratiLab/MARLIN

0

相关内容

多智能体强化学习

多智能体强化学习

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

34+阅读 · 2025年1月19日

正式出版! 新书《多智能体强化学习：基础与现代方法》完整版，爱丁堡Stefano博士编著，395页pdf，附Slides

正式出版! 新书《多智能体强化学习：基础与现代方法》完整版，爱丁堡Stefano博士编著，395页pdf，附Slides

专知会员服务

98+阅读 · 2024年12月21日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

57+阅读 · 2024年8月3日

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

专知会员服务

64+阅读 · 2024年2月2日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

《多智能体强化学习：基础与现代方法》2023最新320页书稿

《多智能体强化学习：基础与现代方法》2023最新320页书稿

专知会员服务

129+阅读 · 2023年10月26日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

315+阅读 · 2022年6月23日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

AdaFair-MARL: Enforcing Adaptive Fairness Constraints in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 4月22日

Tree Learning: A Multi-Skill Continual Learning Framework for Humanoid Robots

Arxiv

0+阅读 · 4月14日

MARS: Multi-Agent Robotic System with Multimodal Large Language Models for Assistive Intelligence

Arxiv

0+阅读 · 4月7日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 4月4日

A Semi Centralized Training Decentralized Execution Architecture for Multi Agent Deep Reinforcement Learning in Traffic Signal Control

Arxiv

0+阅读 · 3月29日

A Multimodal Framework for Human-Multi-Agent Interaction

Arxiv

0+阅读 · 3月24日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

A Survey of Progress on Cooperative Multi-agent Reinforcement Learning in Open Environment

Arxiv

39+阅读 · 2023年12月2日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

VIP会员

文章信息

相关主题

多智能体强化学习

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

34+阅读 · 2025年1月19日

正式出版! 新书《多智能体强化学习：基础与现代方法》完整版，爱丁堡Stefano博士编著，395页pdf，附Slides

正式出版! 新书《多智能体强化学习：基础与现代方法》完整版，爱丁堡Stefano博士编著，395页pdf，附Slides

专知会员服务

98+阅读 · 2024年12月21日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

57+阅读 · 2024年8月3日

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

专知会员服务

64+阅读 · 2024年2月2日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

《多智能体强化学习：基础与现代方法》2023最新320页书稿

《多智能体强化学习：基础与现代方法》2023最新320页书稿

专知会员服务

129+阅读 · 2023年10月26日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

315+阅读 · 2022年6月23日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

AdaFair-MARL: Enforcing Adaptive Fairness Constraints in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 4月22日

Tree Learning: A Multi-Skill Continual Learning Framework for Humanoid Robots

Arxiv

0+阅读 · 4月14日

MARS: Multi-Agent Robotic System with Multimodal Large Language Models for Assistive Intelligence

Arxiv

0+阅读 · 4月7日

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 4月4日

A Semi Centralized Training Decentralized Execution Architecture for Multi Agent Deep Reinforcement Learning in Traffic Signal Control

Arxiv

0+阅读 · 3月29日

A Multimodal Framework for Human-Multi-Agent Interaction

Arxiv

0+阅读 · 3月24日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

A Survey of Progress on Cooperative Multi-agent Reinforcement Learning in Open Environment

Arxiv

39+阅读 · 2023年12月2日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员