Reinforcement learning (RL) has emerged as a powerful paradigm for achieving online agile navigation with quadrotors. Despite this success, policies trained via standard RL typically fail to generalize across significant dynamic variations, exhibiting a critical lack of adaptability. This work introduces MAVEN, a meta-RL framework that enables a single policy to achieve robust end-to-end navigation across a wide range of quadrotor dynamics. Our approach features a novel predictive context encoder, which learns to infer a latent representation of the system dynamics from interaction history. We demonstrate our method in agile waypoint traversal tasks under two challenging scenarios: large variations in quadrotor mass and severe single-rotor thrust loss. We leverage a GPU-vectorized simulator to distribute tasks across thousands of parallel environments, overcoming the long training times of meta-RL to converge in less than an hour. Through extensive experiments in both simulation and the real world, we validate that MAVEN achieves superior adaptation and agility. The policy successfully executes zero-shot sim-to-real transfer, demonstrating robust online adaptation by performing high-speed maneuvers despite mass variations of up to 66.7% and single-rotor thrust losses as severe as 70%.


翻译:强化学习已成为实现四旋翼在线敏捷导航的强大范式。尽管取得了这些成功,但通过标准强化学习训练的策略通常无法在显著的动态变化中实现泛化,表现出关键的适应性不足。本文提出MAVEN,一种元强化学习框架,使单一策略能够在广泛的四旋翼动力学范围内实现鲁棒的端到端导航。我们的方法采用了一种新颖的预测上下文编码器,该编码器能够从交互历史中学习推断系统动力学的潜在表示。我们在两种挑战性场景下的敏捷航点穿越任务中验证了该方法:四旋翼质量的大幅变化和严重的单旋翼推力损失。我们利用GPU向量化模拟器将任务分布到数千个并行环境中,克服了元强化学习训练时间长的难题,在不到一小时内实现收敛。通过在仿真和现实世界中的大量实验,我们验证了MAVEN在适应性和敏捷性方面的卓越表现。该策略成功实现了零样本仿真到现实的迁移,在质量变化高达66.7%且单旋翼推力损失严重至70%的情况下,仍能通过执行高速机动动作,展现出鲁棒的在线适应能力。

0
下载
关闭预览

相关内容

Meta RL(Meta Reinforcement Learning)是Meta Learning应用到Reinforcement Learning的一个研究方向,核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够 学的更快,学的更好,能够自适应新环境!
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
40+阅读 · 2020年3月25日
【MIT博士论文】数据高效强化学习,176页pdf
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
6+阅读 · 今天4:27
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
14+阅读 · 今天4:20
智能体化世界建模:基础、能力、规律及展望
专知会员服务
9+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
40+阅读 · 2020年3月25日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员