Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.


翻译:近期视频生成领域的进展使得能够开发出能够为机器人与规划任务模拟潜在未来的“世界模型”。然而,为这些模型指定精确目标仍然是一个挑战;文本指令通常过于抽象而难以捕捉物理细节,而目标图像对于动态任务而言常常难以指定。为解决这一问题,我们引入了目标力(Goal Force),这是一个新颖的框架,允许用户通过明确的力向量和中间动力学来定义目标,这模仿了人类概念化物理任务的方式。我们在一个精心策划的合成因果基元数据集(例如弹性碰撞和多米诺骨牌倾倒)上训练了一个视频生成模型,教导其在时间和空间中传播力。尽管仅在简单的物理数据上进行训练,我们的模型在复杂、真实世界的场景(包括工具操作和多物体因果链)中展现出卓越的零样本泛化能力。我们的结果表明,通过将视频生成建立在基本物理相互作用的基础上,模型可以演变为隐式神经物理模拟器,从而在不依赖外部引擎的情况下实现精确、物理感知的规划。我们在项目页面上发布了所有数据集、代码、模型权重和交互式视频演示。

0
下载
关闭预览

相关内容

首篇《人类视频生成》全面综述:挑战、方法和见解
专知会员服务
34+阅读 · 2024年7月14日
《基于开源软件强化学习的计算机生成兵力》
专知会员服务
73+阅读 · 2024年1月21日
「视频目标跟踪」最新2022研究进展综述
专知
10+阅读 · 2022年9月26日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2012年12月31日
VIP会员
相关VIP内容
首篇《人类视频生成》全面综述:挑战、方法和见解
专知会员服务
34+阅读 · 2024年7月14日
《基于开源软件强化学习的计算机生成兵力》
专知会员服务
73+阅读 · 2024年1月21日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员