Reinforcement learning (RL) has achieved outstanding success in complex robot control tasks, such as drone racing, where the RL agents have outperformed human champions in a known racing track. However, these agents fail in unseen track configurations, always requiring complete retraining when presented with new track layouts. This work aims to develop RL agents that generalize effectively to novel track configurations without retraining. The naive solution of training directly on a diverse set of track layouts can overburden the agent, resulting in suboptimal policy learning as the increased complexity of the environment impairs the agent's ability to learn to fly. To enhance the generalizability of the RL agent, we propose an adaptive environment-shaping framework that dynamically adjusts the training environment based on the agent's performance. We achieve this by leveraging a secondary RL policy to design environments that strike a balance between being challenging and achievable, allowing the agent to adapt and improve progressively. Using our adaptive environment shaping, one single racing policy efficiently learns to race in diverse challenging tracks. Experimental results validated in both simulation and the real world show that our method enables drones to successfully fly complex and unseen race tracks, outperforming existing environment-shaping techniques. Project page: http://rpg.ifi.uzh.ch/env_as_policy.


翻译:强化学习(RL)在复杂机器人控制任务中取得了卓越成就,例如在无人机竞速领域,RL智能体已在已知赛道上超越了人类冠军选手。然而,这些智能体在面对未知赛道构型时表现不佳,每当出现新的赛道布局时总是需要完全重新训练。本研究旨在开发能够有效泛化至新型赛道构型而无需重新训练的RL智能体。直接在多样化赛道布局集合上进行训练的简单方案会使智能体负担过重,由于环境复杂度的增加损害了智能体学习飞行的能力,导致策略学习效果欠佳。为提升RL智能体的泛化能力,我们提出了一种自适应环境塑造框架,该框架能根据智能体表现动态调整训练环境。我们通过利用辅助RL策略来设计环境,使其在挑战性与可实现性之间取得平衡,从而使智能体能够逐步适应并提升性能。采用我们的自适应环境塑造方法,单一竞速策略即可高效学习在多样化挑战性赛道中竞速。在仿真和真实世界验证的实验结果表明,我们的方法能使无人机成功飞越复杂且未知的竞速赛道,其性能优于现有环境塑造技术。项目页面:http://rpg.ifi.uzh.ch/env_as_policy。

0
下载
关闭预览

相关内容

《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
《用于自主网络行动的竞争性强化学习》113页
专知会员服务
28+阅读 · 2025年1月12日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
14+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
14+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员