Can we learn the physics of matter in motion directly from images and video--and trust it? Answering this question requires integrating experiments, physics-based simulation, and data across traditionally separate disciplines. Much of this knowledge is visual and temporal rather than textual: images and videos encode structure, dynamics, and causality that equations alone cannot fully capture. Recent generative models produce compelling visual content, yet they rely on observational data and often lack physical validity. Here we show that generative video models gain scientific value when they couple visual data with experiments and high-fidelity simulations. Using deformation mechanics as a testbed, we study three systems of increasing complexity--rubber compression, can crushing, and cardiac motion--and identify regimes in which visual learning succeeds, fails, and requires mechanistic supervision. When physics manifests in visible kinematics, generative models recover measurable quantities such as surface strain; when internal state variables dominate, visual plausibility no longer ensures physical admissibility. We propose that this convergence defines a new frontier, the Generative Sciences of Matter and Motion, which unifies Simulogenics, Physiogenics, and Materiogenics. These physics-grounded foundation models can turn visual generation into a scientific instrument for inference, prediction, and design of matter in motion.


翻译:我们能直接从图像和视频中学习物质运动的物理规律——并且信任它吗?回答这个问题需要整合实验、基于物理的模拟以及传统上彼此独立学科的数据。这些知识大多是视觉和时序性的,而非文本性的:图像和视频编码了结构、动力学和因果关系,而这些仅靠方程无法完全捕捉。当前生成模型能够产生引人注目的视觉内容,但它们依赖观测数据且往往缺乏物理有效性。本文表明,当生成视频模型将视觉数据与实验和高保真模拟相结合时,就获得了科学价值。以变形力学为试验场,我们研究了三个复杂度递增的系统——橡胶压缩、易拉罐压扁和心脏运动——并识别出视觉学习成功、失败以及需要机制监督的场景。当物理现象表现在可见的运动学中时,生成模型能恢复表面应变等可测量量;当内部状态变量占主导时,视觉合理性不再保证物理可许性。我们提出这种融合定义了一个新前沿——物质与运动的生成科学,它统一了模拟生成学、物理生成学和材料生成学。这些基于物理的基础模型可将视觉生成转变为用于物质运动的推断、预测和设计的科学工具。

0
下载
关闭预览

相关内容

【博士论文】视频理解:时间维度的深度透视
专知会员服务
7+阅读 · 2月5日
视频生成中的物理认知演进探究:一项综述
专知会员服务
17+阅读 · 2025年3月30日
【斯坦福博士论文】从互联网视频中学习感知物理世界
专知会员服务
23+阅读 · 2024年12月30日
【伯克利博士论文】通过视频生成学习关于世界的知识
专知会员服务
29+阅读 · 2024年12月19日
专知会员服务
141+阅读 · 2021年11月21日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【博士论文】视频理解:时间维度的深度透视
专知会员服务
7+阅读 · 2月5日
视频生成中的物理认知演进探究:一项综述
专知会员服务
17+阅读 · 2025年3月30日
【斯坦福博士论文】从互联网视频中学习感知物理世界
专知会员服务
23+阅读 · 2024年12月30日
【伯克利博士论文】通过视频生成学习关于世界的知识
专知会员服务
29+阅读 · 2024年12月19日
专知会员服务
141+阅读 · 2021年11月21日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员