What if a video generation model could not only imagine a plausible future, but the correct one, accurately reflecting how the world changes with each action? We address this question by presenting the Egocentric World Model (EgoWM), a simple, architecture-agnostic method that transforms any pretrained video diffusion model into an action-conditioned world model, enabling controllable future prediction. Rather than training from scratch, we repurpose the rich world priors of Internet-scale video models and inject motor commands through lightweight conditioning layers. This allows the model to follow actions faithfully while preserving realism and strong generalization. Our approach scales naturally across embodiments and action spaces, ranging from 3-DoF mobile robots to 25-DoF humanoids, where predicting egocentric joint-angle-driven dynamics is substantially more challenging. The model produces coherent rollouts for both navigation and manipulation tasks, requiring only modest fine-tuning. To evaluate physical correctness independently of visual appearance, we introduce the Structural Consistency Score (SCS), which measures whether stable scene elements evolve consistently with the provided actions. EgoWM improves SCS by up to 80 percent over prior state-of-the-art navigation world models, while achieving up to six times lower inference latency and robust generalization to unseen environments, including navigation inside paintings.


翻译:如果一个视频生成模型不仅能想象一个合理的未来,还能想象一个正确的未来,精确反映世界如何随每个动作而变化,那会怎样?我们通过提出自我中心世界模型(EgoWM)来探讨这个问题,这是一种简单、架构无关的方法,可将任何预训练的视频扩散模型转化为动作条件化的世界模型,从而实现可控的未来预测。我们并非从头开始训练,而是重新利用互联网规模视频模型所蕴含的丰富世界先验知识,并通过轻量级条件层注入运动指令。这使得模型能够忠实地遵循动作,同时保持真实感和强大的泛化能力。我们的方法能自然地扩展到不同的具身形态和动作空间,从3自由度的移动机器人到25自由度的人形机器人,其中预测由关节角驱动的自我中心动态更具挑战性。该模型能为导航和操作任务生成连贯的推演序列,仅需适度的微调。为了独立于视觉外观来评估物理正确性,我们引入了结构一致性评分(SCS),用于衡量稳定场景元素是否与所提供动作保持一致地演化。EgoWM将SCS相比先前最先进的导航世界模型提升了高达80%,同时实现了高达六倍的推理延迟降低,并对未见环境(包括在画作内部导航)展现出鲁棒的泛化能力。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
《用人工智能模拟视觉世界:路线图》
专知会员服务
19+阅读 · 2025年11月12日
具身智能中的世界模型:全面综述
专知会员服务
44+阅读 · 2025年10月21日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
17+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
《用人工智能模拟视觉世界:路线图》
专知会员服务
19+阅读 · 2025年11月12日
具身智能中的世界模型:全面综述
专知会员服务
44+阅读 · 2025年10月21日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
17+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员