Scalable embodied intelligence is constrained by the scarcity of diverse, long-horizon robotic manipulation data. Existing video world models in this domain are limited to synthesizing short clips of simple actions and often rely on manually defined trajectories. To this end, we introduce MIND-V, a cognitive hierarchical world model designed to synthesize physically plausible and logically coherent videos of long-horizon robotic manipulation. Inspired by cognitive science, MIND-V bridges high-level reasoning with pixel-level synthesis through three core components: a Semantic Reasoning Hub (SRH) that leverages a pre-trained vision-language model for task planning; a Behavioral Semantic Bridge (BSB) that translates abstract instructions into domain-invariant representations; and a Motor Video Generator (MVG) for conditional video rendering. MIND-V employs Staged Visual Future Rollouts, a test-time optimization strategy to enhance long-horizon robustness. To enforce adherence to physical laws, we introduce a GRPO reinforcement learning post-training phase guided by a novel Physical Foresight Coherence (PFC) reward. PFC leverages the V-JEPA2 world model as a physics referee to penalize implausible dynamics in the latent feature space. Experiments confirm MIND-V's SOTA performance in long-horizon simulation and its significant value for policy learning, introducing a scalable and fully autonomous framework for embodied data synthesis.


翻译:可扩展的具身智能受限于多样化、长时域机器人操作数据的稀缺性。现有视频世界模型仅能合成简单动作的短视频片段,且常依赖人工定义的轨迹。为此,我们提出MIND-V——一种认知层级世界模型,旨在合成具有物理合理性与逻辑一致性的长时域机器人操作视频。受认知科学启发,MIND-V通过三个核心组件实现高层推理与像素级合成的衔接:语义推理中枢(SRH)利用预训练视觉语言模型进行任务规划;行为语义桥梁(BSB)将抽象指令转化为领域不变表征;以及运动视频生成器(MVG)进行条件视频渲染。MIND-V采用阶段性视觉未来展开(Staged Visual Future Rollouts)测试时优化策略以增强长时域鲁棒性。为强制遵循物理定律,我们引入基于GRPO的强化学习后训练阶段,并由新型物理预见一致性(PFC)奖励函数引导。PFC利用V-JEPA2世界模型作为物理裁判,在潜在特征空间中惩罚非合理动力学现象。实验证实MIND-V在长时域仿真中达到最优性能,并对策略学习具有显著价值,为具身数据合成提供了可扩展的全自主框架。

0
下载
关闭预览

相关内容

从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 53分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员