Recently, video-based world models that learn to simulate the dynamics have gained increasing attention in robot learning. However, current approaches primarily emphasize visual generative quality while overlooking physical fidelity, dynamic consistency, and task logic, especially for contact-rich manipulation tasks, which limits their applicability to downstream tasks. To this end, we introduce ReWorld, a framework aimed to employ reinforcement learning to align the video-based embodied world models with physical realism, task completion capability, embodiment plausibility and visual quality. Specifically, we first construct a large-scale (~235K) video preference dataset and employ it to train a hierarchical reward model designed to capture multi-dimensional reward consistent with human preferences. We further propose a practical alignment algorithm that post-trains flow-based world models using this reward through a computationally efficient PPO-style algorithm. Comprehensive experiments and theoretical analysis demonstrate that ReWorld significantly improves the physical fidelity, logical coherence, embodiment and visual quality of generated rollouts, outperforming previous methods.


翻译:近年来,基于视频的世界模型通过学习模拟环境动态,在机器人学习领域日益受到关注。然而,现有方法主要侧重于视觉生成质量,而忽视了物理保真度、动态一致性与任务逻辑性,尤其在接触丰富的操作任务中,这限制了其在下游任务中的应用。为此,我们提出ReWorld框架,旨在利用强化学习将基于视频的具身世界模型与物理真实性、任务完成能力、具身合理性及视觉质量对齐。具体而言,我们首先构建了一个大规模(约235K)视频偏好数据集,并利用其训练一个分层奖励模型,该模型旨在捕获与人类偏好一致的多维度奖励。我们进一步提出一种实用的对齐算法,通过计算高效的PPO风格算法,利用该奖励对基于流的世界模型进行后训练。全面的实验与理论分析表明,ReWorld显著提升了生成推演的物理保真度、逻辑连贯性、具身合理性及视觉质量,性能优于先前方法。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
28+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
17+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
40+阅读 · 2024年5月9日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
【泡泡一分钟】基于紧凑模型表示的三维重建(3dv-12)
泡泡机器人SLAM
10+阅读 · 2017年12月7日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月28日
VIP会员
相关VIP内容
具身智能中的心理世界建模:深度综述
专知会员服务
28+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
17+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
40+阅读 · 2024年5月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员