Reinforcement learning (RL) promises to unlock capabilities beyond imitation learning for Vision-Language-Action (VLA) models, but its requirement for massive real-world interaction prevents direct deployment on physical robots. Recent work attempts to use learned world models as simulators for policy optimization, yet closed-loop imagined rollouts inevitably suffer from hallucination and long-horizon error accumulation. Such errors do not merely degrade visual fidelity; they corrupt the optimization signal, encouraging policies to exploit model inaccuracies rather than genuine task progress. We propose WoVR, a reliable world-model-based reinforcement learning framework for post-training VLA policies. Instead of assuming a faithful world model, WoVR explicitly regulates how RL interacts with imperfect imagined dynamics. It improves rollout stability through a controllable action-conditioned video world model, reshapes imagined interaction to reduce effective error depth via Keyframe-Initialized Rollouts, and maintains policy-simulator alignment through World Model-Policy co-evolution. Extensive experiments on LIBERO benchmarks and real-world robotic manipulation demonstrate that WoVR enables stable long-horizon imagined rollouts and effective policy optimization, improving average LIBERO success from 39.95% to 69.2% (+29.3 points) and real-robot success from 61.7% to 91.7% (+30.0 points). These results show that learned world models can serve as practical simulators for reinforcement learning when hallucination is explicitly controlled.


翻译:强化学习(RL)有望为视觉-语言-动作(VLA)模型解锁超越模仿学习的能力,但其对大量现实世界交互的需求阻碍了在物理机器人上的直接部署。近期研究尝试使用学习得到的世界模型作为策略优化的模拟器,然而闭环想象轨迹不可避免地受到幻觉和长时程误差累积的影响。此类误差不仅会降低视觉保真度,更会破坏优化信号,促使策略利用模型的不准确性而非真正的任务进展。我们提出WoVR,一个用于后训练VLA策略的、基于可靠世界模型的强化学习框架。WoVR并不假设一个忠实的世界模型,而是明确规范RL如何与不完美的想象动态进行交互。它通过一个可控的动作条件视频世界模型来提升轨迹稳定性,利用关键帧初始化轨迹来重塑想象交互以减少有效误差深度,并通过世界模型-策略协同进化来维持策略与模拟器的一致性。在LIBERO基准测试和真实世界机器人操作上的大量实验表明,WoVR能够实现稳定的长时程想象轨迹和有效的策略优化,将LIBERO平均成功率从39.95%提升至69.2%(+29.3个百分点),并将真实机器人成功率从61.7%提升至91.7%(+30.0个百分点)。这些结果表明,当幻觉被明确控制时,学习得到的世界模型可以作为强化学习的实用模拟器。

0
下载
关闭预览

相关内容

视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【2022新书】强化学习工业应用
专知
18+阅读 · 2022年2月3日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员