目标力：教导视频模型实现物理条件化目标 (Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals) - 专知论文

会员服务 ·

0

视频 · 模型实现 · 视频生成 · 数据集 · 潜在 ·

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

翻译：目标力：教导视频模型实现物理条件化目标

Nate Gillman,Yinghua Zhou,Zitian Tang,Evan Luo,Arjan Chakravarthy,Daksh Aggarwal,Michael Freeman,Charles Herrmann,Chen Sun

from arxiv, Code and interactive demos at https://goal-force.github.io/

Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.

翻译：近期视频生成领域的进展使得能够开发出能够为机器人与规划任务模拟潜在未来的“世界模型”。然而，为这些模型指定精确目标仍然是一个挑战；文本指令通常过于抽象而难以捕捉物理细节，而目标图像对于动态任务而言常常难以指定。为解决这一问题，我们引入了目标力（Goal Force），这是一个新颖的框架，允许用户通过明确的力向量和中间动力学来定义目标，这模仿了人类概念化物理任务的方式。我们在一个精心策划的合成因果基元数据集（例如弹性碰撞和多米诺骨牌倾倒）上训练了一个视频生成模型，教导其在时间和空间中传播力。尽管仅在简单的物理数据上进行训练，我们的模型在复杂、真实世界的场景（包括工具操作和多物体因果链）中展现出卓越的零样本泛化能力。我们的结果表明，通过将视频生成建立在基本物理相互作用的基础上，模型可以演变为隐式神经物理模拟器，从而在不依赖外部引擎的情况下实现精确、物理感知的规划。我们在项目页面上发布了所有数据集、代码、模型权重和交互式视频演示。

0

相关内容

视频

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

《基于开源软件强化学习的计算机生成兵力》

《基于开源软件强化学习的计算机生成兵力》

专知会员服务

73+阅读 · 2024年1月21日

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

专知会员服务

27+阅读 · 2023年10月28日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

「视频目标跟踪」最新2022研究进展综述

「视频目标跟踪」最新2022研究进展综述

专知

10+阅读 · 2022年9月26日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

目标检测101：一文带你读懂深度学习框架下的目标检测

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

高分卫星视频运动目标检测与轨迹提取方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

指挥控制系统的能力需求模型分析及验证方法研究

国家自然科学基金

26+阅读 · 2012年12月31日

PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models

Arxiv

0+阅读 · 1月22日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

Arxiv

0+阅读 · 1月21日

Learning Latent Action World Models In The Wild

Arxiv

0+阅读 · 1月20日

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

Arxiv

0+阅读 · 1月14日

Simulating the Visual World with Artificial Intelligence: A Roadmap

Arxiv

0+阅读 · 1月13日

Video Generation Models in Robotics - Applications, Research Challenges, Future Directions

Arxiv

0+阅读 · 1月12日

Learning Latent Action World Models In The Wild

Arxiv

0+阅读 · 1月8日

PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance

Arxiv

0+阅读 · 1月7日

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

相关VIP内容

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

《基于开源软件强化学习的计算机生成兵力》

《基于开源软件强化学习的计算机生成兵力》

专知会员服务

73+阅读 · 2024年1月21日

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

专知会员服务

27+阅读 · 2023年10月28日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

「视频目标跟踪」最新2022研究进展综述

「视频目标跟踪」最新2022研究进展综述

专知

10+阅读 · 2022年9月26日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

目标检测101：一文带你读懂深度学习框架下的目标检测

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

相关论文

PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models

Arxiv

0+阅读 · 1月22日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

Arxiv

0+阅读 · 1月21日

Learning Latent Action World Models In The Wild

Arxiv

0+阅读 · 1月20日

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

Arxiv

0+阅读 · 1月14日

Simulating the Visual World with Artificial Intelligence: A Roadmap

Arxiv

0+阅读 · 1月13日

Video Generation Models in Robotics - Applications, Research Challenges, Future Directions

Arxiv

0+阅读 · 1月12日

Learning Latent Action World Models In The Wild

Arxiv

0+阅读 · 1月8日

PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance

Arxiv

0+阅读 · 1月7日

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Arxiv

0+阅读 · 1月5日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

高分卫星视频运动目标检测与轨迹提取方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

指挥控制系统的能力需求模型分析及验证方法研究

国家自然科学基金

26+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员