Reinforcement Learning (RL) has achieved impressive results in robotics, yet high-performing pipelines remain highly task-specific, with little reuse of prior data. Offline Model-based RL (MBRL) offers greater data efficiency by training policies entirely from existing datasets, but suffers from compounding errors and distribution shift in long-horizon rollouts. Although existing methods have shown success in controlled simulation benchmarks, robustly applying them to the noisy, biased, and partially observed datasets typical of real-world robotics remains challenging. We present a principled pipeline for making offline MBRL effective on physical robots. Our RWM-U extends autoregressive world models with epistemic uncertainty estimation, enabling temporally consistent multi-step rollouts with uncertainty effectively propagated over long horizons. We combine RWM-U with MOPO-PPO, which adapts uncertainty-penalized policy optimization to the stable, on-policy PPO framework for real-world control. We evaluate our approach on diverse manipulation and locomotion tasks in simulation and on real quadruped and humanoid, training policies entirely from offline datasets. The resulting policies consistently outperform model-free and uncertainty-unaware model-based baselines, and fusing real-world data in model learning further yields robust policies that surpass online model-free baselines trained solely in simulation.


翻译:强化学习(Reinforcement Learning,RL)在机器人领域已取得令人瞩目的成果,然而高性能的流程仍高度任务特定化,对先前数据的复用极少。离线模型强化学习(Model-based RL,MBRL)通过完全从现有数据集中训练策略,提供了更高的数据效率,但在长时域推演中易受复合误差和分布偏移的影响。尽管现有方法在受控的仿真基准测试中已展现出成功,但将其稳健地应用于真实世界机器人领域中典型的噪声、有偏且部分可观测的数据集仍具挑战性。我们提出了一种使离线MBRL在物理机器人上有效的原则性流程。我们的RWM-U通过认知不确定性估计扩展了自回归世界模型,实现了时间一致的多步推演,并能有效将不确定性在长时域上传播。我们将RWM-U与MOPO-PPO结合,后者将不确定性惩罚的策略优化适配到稳定、同策略的PPO框架中,以用于真实世界控制。我们在仿真和真实四足及人形机器人上,针对多种操作与移动任务评估了我们的方法,策略完全从离线数据集中训练。所得策略始终优于无模型及未考虑不确定性的模型基线方法,并且在模型学习中融合真实世界数据进一步产生了超越仅在仿真中训练的在线无模型基线的稳健策略。

0
下载
关闭预览

相关内容

《机器人强化学习技术进展》34页
专知会员服务
38+阅读 · 2025年7月16日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
40+阅读 · 2022年5月27日
专知会员服务
135+阅读 · 2021年3月13日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员