Learning Acrobatic Flight from Preferences - 专知论文

会员服务 ·

0

设计 · 集成 · 不确定 · 奖励函数 · 不确定性 ·

Learning Acrobatic Flight from Preferences

翻译：基于偏好的强化学习实现杂技飞行

Colin Merk,Ismail Geles,Jiaxu Xing,Angel Romero,Giorgia Ramponi,Davide Scaramuzza

from arxiv, 8 pages, 6 figures

Preference-based reinforcement learning (PbRL) enables agents to learn control policies without requiring manually designed reward functions, making it well-suited for tasks where objectives are difficult to formalize or inherently subjective. Acrobatic flight poses a particularly challenging problem due to its complex dynamics, rapid movements, and the importance of precise execution. However, manually designed reward functions for such tasks often fail to capture the qualities that matter: we find that hand-crafted rewards agree with human judgment only 60.7% of the time, underscoring the need for preference-driven approaches. In this work, we propose Reward Ensemble under Confidence (REC), a probabilistic reward learning framework for PbRL that explicitly models per-timestep reward uncertainty through an ensemble of distributional reward models. By propagating uncertainty into the preference loss and leveraging disagreement for exploration, REC achieves 88.4% of shaped reward performance on acrobatic quadrotor control, compared to 55.2% with standard Preference PPO. We train policies in simulation and successfully transfer them zero-shot to the real world, demonstrating complex acrobatic maneuvers learned purely from preference feedback. We further validate REC on a continuous control benchmark, confirming its applicability beyond the domain of aerial robotics.

翻译：基于偏好的强化学习（PbRL）使智能体能够在无需手动设计奖励函数的情况下学习控制策略，这使其特别适用于目标难以形式化或本质上是主观的任务。杂技飞行因其复杂的动力学、快速的动作以及精确执行的重要性，构成了一个极具挑战性的问题。然而，为此类任务手动设计的奖励函数通常无法捕捉到关键的质量要素：我们发现手工制作的奖励与人类判断的一致性仅为60.7%，这凸显了对偏好驱动方法的需求。在本工作中，我们提出了置信度下的奖励集成（REC），这是一个用于PbRL的概率奖励学习框架，它通过一个分布奖励模型集成来显式建模每个时间步的奖励不确定性。通过将不确定性传播到偏好损失中，并利用模型间的分歧进行探索，REC在杂技四旋翼飞行器控制任务上达到了人工设计奖励性能的88.4%，而标准的偏好PPO方法仅达到55.2%。我们在仿真环境中训练策略，并成功将其零样本迁移到现实世界，展示了完全从偏好反馈中学习到的复杂杂技机动动作。我们还在一个连续控制基准测试上进一步验证了REC，确认了其适用范围可扩展到空中机器人领域之外。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

48+阅读 · 2025年10月30日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

43+阅读 · 2025年3月1日

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

专知会员服务

34+阅读 · 2025年2月23日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

43+阅读 · 2024年9月22日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

48+阅读 · 2024年8月20日

《分析强化学习智能体在空战中的能力：综合性能评估工具》

《分析强化学习智能体在空战中的能力：综合性能评估工具》

专知会员服务

74+阅读 · 2024年7月10日

基于人工反馈的强化学习综述

基于人工反馈的强化学习综述

专知会员服务

66+阅读 · 2023年12月25日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

《基于强化学习开发战斗行为》美国海军研究生院

《基于强化学习开发战斗行为》美国海军研究生院

专知会员服务

106+阅读 · 2022年6月27日

基于强化学习的空战动作生成

基于强化学习的空战动作生成

专知会员服务

139+阅读 · 2022年6月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经元簇功能假设的飞行员操纵行为习惯研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Satellite Chasers: Divergent Adversarial Reinforcement Learning to Engage Intelligent Adversaries on Orbit

Arxiv

0+阅读 · 4月20日

What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

Arxiv

0+阅读 · 4月19日

Learning Dexterous Grasping from Sparse Taxonomy Guidance

Arxiv

0+阅读 · 4月5日

TREX: Trajectory Explanations for Multi-Objective Reinforcement Learning

Arxiv

0+阅读 · 3月23日

ASTER: Attitude-aware Suspended-payload Quadrotor Traversal via Efficient Reinforcement Learning

Arxiv

0+阅读 · 3月11日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Arxiv

0+阅读 · 3月4日

Curriculum Reinforcement Learning for Quadrotor Racing with Random Obstacles

Arxiv

0+阅读 · 2月27日

Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering

Arxiv

49+阅读 · 2023年9月20日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

11+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

48+阅读 · 2025年10月30日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

43+阅读 · 2025年3月1日

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

专知会员服务

34+阅读 · 2025年2月23日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

43+阅读 · 2024年9月22日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

48+阅读 · 2024年8月20日

《分析强化学习智能体在空战中的能力：综合性能评估工具》

《分析强化学习智能体在空战中的能力：综合性能评估工具》

专知会员服务

74+阅读 · 2024年7月10日

基于人工反馈的强化学习综述

基于人工反馈的强化学习综述

专知会员服务

66+阅读 · 2023年12月25日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

《基于强化学习开发战斗行为》美国海军研究生院

《基于强化学习开发战斗行为》美国海军研究生院

专知会员服务

106+阅读 · 2022年6月27日

基于强化学习的空战动作生成

基于强化学习的空战动作生成

专知会员服务

139+阅读 · 2022年6月19日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Satellite Chasers: Divergent Adversarial Reinforcement Learning to Engage Intelligent Adversaries on Orbit

Arxiv

0+阅读 · 4月20日

What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

Arxiv

0+阅读 · 4月19日

Learning Dexterous Grasping from Sparse Taxonomy Guidance

Arxiv

0+阅读 · 4月5日

TREX: Trajectory Explanations for Multi-Objective Reinforcement Learning

Arxiv

0+阅读 · 3月23日

ASTER: Attitude-aware Suspended-payload Quadrotor Traversal via Efficient Reinforcement Learning

Arxiv

0+阅读 · 3月11日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Arxiv

0+阅读 · 3月4日

Curriculum Reinforcement Learning for Quadrotor Racing with Random Obstacles

Arxiv

0+阅读 · 2月27日

Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering

Arxiv

49+阅读 · 2023年9月20日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经元簇功能假设的飞行员操纵行为习惯研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员