基于物理感知神经架构的多旋翼飞行器控制策略学习快速启动高效知识迁移方法 (Efficient Knowledge Transfer for Jump-Starting Control Policy Learning of Multirotors through Physics-Aware Neural Architectures) - 专知论文

会员服务 ·

0

知识 · 知识迁移 · 初始化 · 控制策略 · 基于物理 ·

Efficient Knowledge Transfer for Jump-Starting Control Policy Learning of Multirotors through Physics-Aware Neural Architectures

翻译：基于物理感知神经架构的多旋翼飞行器控制策略学习快速启动高效知识迁移方法

Welf Rehberg,Mihir Kulkarni,Philipp Weiss,Kostas Alexis

from arxiv, 8 pages. Accepted to IEEE Robotics and Automation Letters

Efficiently training control policies for robots is a major challenge that can greatly benefit from utilizing knowledge gained from training similar systems through cross-embodiment knowledge transfer. In this work, we focus on accelerating policy training using a library-based initialization scheme that enables effective knowledge transfer across multirotor configurations. By leveraging a physics-aware neural control architecture that combines a reinforcement learning-based controller and a supervised control allocation network, we enable the reuse of previously trained policies. To this end, we utilize a policy evaluation-based similarity measure that identifies suitable policies for initialization from a library. We demonstrate that this measure correlates with the reduction in environment interactions needed to reach target performance and is therefore suited for initialization. Extensive simulation and real-world experiments confirm that our control architecture achieves state-of-the-art control performance, and that our initialization scheme saves on average up to $73.5\%$ of environment interactions (compared to training a policy from scratch) across diverse quadrotor and hexarotor designs, paving the way for efficient cross-embodiment transfer in reinforcement learning.

翻译：高效训练机器人控制策略是一项重大挑战，通过跨具身知识迁移利用相似系统训练中获得的知识可为此带来显著助益。本研究聚焦于采用基于策略库的初始化方案来加速策略训练，该方案能够实现跨多旋翼构型的有效知识迁移。通过利用结合强化学习控制器与监督式控制分配网络的物理感知神经控制架构，我们实现了对已训练策略的复用。为此，我们采用基于策略评估的相似性度量方法，从策略库中识别适用于初始化的候选策略。实验证明该度量指标与达到目标性能所需环境交互次数的减少量具有相关性，因而适用于初始化任务。大量仿真与实物实验证实：我们的控制架构实现了最先进的控制性能，且初始化方案在多种四旋翼与六旋翼设计中平均节省高达$73.5\%$的环境交互成本（相较于从零开始训练策略），这为强化学习中的高效跨具身迁移铺平了道路。

0

相关内容

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

39+阅读 · 2025年10月30日

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

专知会员服务

23+阅读 · 2025年9月7日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

59+阅读 · 2025年4月6日

【斯坦福博士论文】高精度操控的策略学习前沿研究

【斯坦福博士论文】高精度操控的策略学习前沿研究

专知会员服务

22+阅读 · 2025年3月30日

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

专知会员服务

24+阅读 · 2025年3月26日

【AAAI2025】穿越多模态领域：通过低秩序列多模态适配器实现高效迁移学习

【AAAI2025】穿越多模态领域：通过低秩序列多模态适配器实现高效迁移学习

专知会员服务

14+阅读 · 2024年12月13日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

61+阅读 · 2024年4月16日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

无人机飞行控制方法概述

无人机飞行控制方法概述

无人机

12+阅读 · 2017年10月7日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

倾转旋翼飞行器模态转换阶段非线性控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向电子制造的多机器人高速协调的关键理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Arxiv

0+阅读 · 2月18日

A Latency-Aware Framework for Visuomotor Policy Learning on Industrial Robots

Arxiv

0+阅读 · 2月15日

Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning

Arxiv

0+阅读 · 2月14日

TRANS: Terrain-aware Reinforcement Learning for Agile Navigation of Quadruped Robots under Social Interactions

Arxiv

0+阅读 · 2月13日

Learning Agile Quadrotor Flight in the Real World

Arxiv

0+阅读 · 2月10日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion

Arxiv

0+阅读 · 2月5日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

EquiContact: A Hierarchical SE(3) Vision-to-Force Equivariant Policy for Spatially Generalizable Contact-rich Tasks

Arxiv

0+阅读 · 1月30日

Learning a Unified Latent Space for Cross-Embodiment Robot Control

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

39+阅读 · 2025年10月30日

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

专知会员服务

23+阅读 · 2025年9月7日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

59+阅读 · 2025年4月6日

【斯坦福博士论文】高精度操控的策略学习前沿研究

【斯坦福博士论文】高精度操控的策略学习前沿研究

专知会员服务

22+阅读 · 2025年3月30日

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

专知会员服务

24+阅读 · 2025年3月26日

【AAAI2025】穿越多模态领域：通过低秩序列多模态适配器实现高效迁移学习

【AAAI2025】穿越多模态领域：通过低秩序列多模态适配器实现高效迁移学习

专知会员服务

14+阅读 · 2024年12月13日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

61+阅读 · 2024年4月16日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

无人机飞行控制方法概述

无人机飞行控制方法概述

无人机

12+阅读 · 2017年10月7日

相关论文

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Arxiv

0+阅读 · 2月18日

A Latency-Aware Framework for Visuomotor Policy Learning on Industrial Robots

Arxiv

0+阅读 · 2月15日

Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning

Arxiv

0+阅读 · 2月14日

TRANS: Terrain-aware Reinforcement Learning for Agile Navigation of Quadruped Robots under Social Interactions

Arxiv

0+阅读 · 2月13日

Learning Agile Quadrotor Flight in the Real World

Arxiv

0+阅读 · 2月10日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion

Arxiv

0+阅读 · 2月5日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

EquiContact: A Hierarchical SE(3) Vision-to-Force Equivariant Policy for Spatially Generalizable Contact-rich Tasks

Arxiv

0+阅读 · 1月30日

Learning a Unified Latent Space for Cross-Embodiment Robot Control

Arxiv

0+阅读 · 1月21日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

倾转旋翼飞行器模态转换阶段非线性控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向电子制造的多机器人高速协调的关键理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员