不确定性感知的机器人世界模型使离线模型强化学习在真实机器人上生效 (Uncertainty-Aware Robotic World Model Makes Offline Model-Based Reinforcement Learning Work on Real Robots) - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 机器人 · 离线模型 · 模型强化学习 ·

Uncertainty-Aware Robotic World Model Makes Offline Model-Based Reinforcement Learning Work on Real Robots

翻译：不确定性感知的机器人世界模型使离线模型强化学习在真实机器人上生效

Chenhao Li,Andreas Krause,Marco Hutter

Reinforcement Learning (RL) has achieved impressive results in robotics, yet high-performing pipelines remain highly task-specific, with little reuse of prior data. Offline Model-based RL (MBRL) offers greater data efficiency by training policies entirely from existing datasets, but suffers from compounding errors and distribution shift in long-horizon rollouts. Although existing methods have shown success in controlled simulation benchmarks, robustly applying them to the noisy, biased, and partially observed datasets typical of real-world robotics remains challenging. We present a principled pipeline for making offline MBRL effective on physical robots. Our RWM-U extends autoregressive world models with epistemic uncertainty estimation, enabling temporally consistent multi-step rollouts with uncertainty effectively propagated over long horizons. We combine RWM-U with MOPO-PPO, which adapts uncertainty-penalized policy optimization to the stable, on-policy PPO framework for real-world control. We evaluate our approach on diverse manipulation and locomotion tasks in simulation and on real quadruped and humanoid, training policies entirely from offline datasets. The resulting policies consistently outperform model-free and uncertainty-unaware model-based baselines, and fusing real-world data in model learning further yields robust policies that surpass online model-free baselines trained solely in simulation.

翻译：强化学习（RL）在机器人领域已取得令人瞩目的成果，但高性能的流程仍高度依赖于特定任务，对先前数据的复用极少。离线模型强化学习（MBRL）通过完全基于现有数据集训练策略，提供了更高的数据效率，但在长时域推演中受到复合误差和分布偏移的影响。尽管现有方法在受控的仿真基准测试中已显示出成功，但将其稳健地应用于真实世界机器人领域典型的噪声、有偏且部分可观测的数据集仍具挑战性。我们提出了一种使离线MBRL在物理机器人上有效的原则性流程。我们的RWM-U通过认知不确定性估计扩展了自回归世界模型，使得能够进行时间一致的多步推演，并将不确定性在长时域上有效传播。我们将RWM-U与MOPO-PPO相结合，后者将不确定性惩罚的策略优化适配到稳定、在线的PPO框架中，用于真实世界控制。我们在仿真和真实四足及人形机器人上，基于多样化的操作和移动任务评估了我们的方法，策略完全从离线数据集中训练。所得策略一致地优于无模型和无不确定性感知的模型基线，并且在模型学习中融合真实世界数据进一步产生了超越仅在仿真中训练的在线无模型基线的稳健策略。

0

相关内容

不确定

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

《机器人强化学习技术进展》34页

《机器人强化学习技术进展》34页

专知会员服务

38+阅读 · 2025年7月16日

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

专知会员服务

35+阅读 · 2024年8月8日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

41+阅读 · 2024年3月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

92+阅读 · 2024年1月7日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

50+阅读 · 2022年9月14日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

【ICRA2022】机器人强化学习工具教程, 附slides与视频

【ICRA2022】机器人强化学习工具教程, 附slides与视频

专知会员服务

40+阅读 · 2022年5月27日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

37+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

World-Gymnast: Training Robots with Reinforcement Learning in a World Model

Arxiv

0+阅读 · 2月2日

DynaWeb: Model-Based Reinforcement Learning of Web Agents

Arxiv

0+阅读 · 1月29日

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Arxiv

0+阅读 · 1月29日

Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models

Arxiv

0+阅读 · 1月28日

Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning

Arxiv

0+阅读 · 1月27日

From Observations to Events: Event-Aware World Model for Reinforcement Learning

Arxiv

0+阅读 · 1月27日

Statistical Reinforcement Learning in the Real World: A Survey of Challenges and Future Directions

Arxiv

0+阅读 · 1月21日

A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 1月16日

Learning Quadrotor Control From Visual Features Using Differentiable Simulation

Arxiv

0+阅读 · 1月15日

Uncertainty-Aware Robotic World Model Makes Offline Model-Based Reinforcement Learning Work on Real Robots

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

模型强化学习

相关VIP内容

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

《机器人强化学习技术进展》34页

《机器人强化学习技术进展》34页

专知会员服务

38+阅读 · 2025年7月16日

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

专知会员服务

35+阅读 · 2024年8月8日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

41+阅读 · 2024年3月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

92+阅读 · 2024年1月7日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

50+阅读 · 2022年9月14日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

【ICRA2022】机器人强化学习工具教程, 附slides与视频

【ICRA2022】机器人强化学习工具教程, 附slides与视频

专知会员服务

40+阅读 · 2022年5月27日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

37+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

World-Gymnast: Training Robots with Reinforcement Learning in a World Model

Arxiv

0+阅读 · 2月2日

DynaWeb: Model-Based Reinforcement Learning of Web Agents

Arxiv

0+阅读 · 1月29日

Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Arxiv

0+阅读 · 1月29日

Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models

Arxiv

0+阅读 · 1月28日

Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning

Arxiv

0+阅读 · 1月27日

From Observations to Events: Event-Aware World Model for Reinforcement Learning

Arxiv

0+阅读 · 1月27日

Statistical Reinforcement Learning in the Real World: A Survey of Challenges and Future Directions

Arxiv

0+阅读 · 1月21日

A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 1月16日

Learning Quadrotor Control From Visual Features Using Differentiable Simulation

Arxiv

0+阅读 · 1月15日

Uncertainty-Aware Robotic World Model Makes Offline Model-Based Reinforcement Learning Work on Real Robots

Arxiv

0+阅读 · 1月7日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员