PhysVideoGenerator：通过潜在物理引导实现物理感知的视频生成 (PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance) - 专知论文

会员服务 ·

0

视频 · 潜在 · 视频生成 · 嵌入 · 生成模型 ·

PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance

翻译：PhysVideoGenerator：通过潜在物理引导实现物理感知的视频生成

Siddarth Nilol Kundur Satish,Devesh Jaiswal,Hongyu Chen,Abhishek Bakshi

from arxiv, 9 pages, 2 figures, project page: https://github.com/CVFall2025-Project/PhysVideoGenerator

Current video generation models produce high-quality aesthetic videos but often struggle to learn representations of real-world physics dynamics, resulting in artifacts such as unnatural object collisions, inconsistent gravity, and temporal flickering. In this work, we propose PhysVideoGenerator, a proof-of-concept framework that explicitly embeds a learnable physics prior into the video generation process. We introduce a lightweight predictor network, PredictorP, which regresses high-level physical features extracted from a pre-trained Video Joint Embedding Predictive Architecture (V-JEPA 2) directly from noisy diffusion latents. These predicted physics tokens are injected into the temporal attention layers of a DiT-based generator (Latte) via a dedicated cross-attention mechanism. Our primary contribution is demonstrating the technical feasibility of this joint training paradigm: we show that diffusion latents contain sufficient information to recover V-JEPA 2 physical representations, and that multi-task optimization remains stable over training. This report documents the architectural design, technical challenges, and validation of training stability, establishing a foundation for future large-scale evaluation of physics-aware generative models.

翻译：当前的视频生成模型能够生成高质量的美学视频，但往往难以学习真实世界物理动态的表征，从而导致诸如不自然的物体碰撞、不一致的重力以及时间闪烁等伪影。在本工作中，我们提出了PhysVideoGenerator，这是一个概念验证框架，它明确地将一个可学习的物理先验嵌入到视频生成过程中。我们引入了一个轻量级的预测网络PredictorP，它直接从带噪声的扩散潜在空间中回归从预训练的视频联合嵌入预测架构（V-JEPA 2）中提取的高级物理特征。这些预测的物理令牌通过一个专用的交叉注意力机制注入到基于DiT的生成器（Latte）的时间注意力层中。我们的主要贡献在于证明了这种联合训练范式的技术可行性：我们证明了扩散潜在空间包含足够的信息来恢复V-JEPA 2的物理表征，并且多任务优化在训练过程中保持稳定。本报告记录了架构设计、技术挑战以及训练稳定性的验证，为未来大规模评估物理感知生成模型奠定了基础。

0

相关内容

视频

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

物理学中的高级深度学习

物理学中的高级深度学习

专知会员服务

19+阅读 · 2025年12月9日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

视频生成中的物理认知演进探究：一项综述

视频生成中的物理认知演进探究：一项综述

专知会员服务

16+阅读 · 2025年3月30日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

【斯坦福博士论文】从互联网视频中学习感知物理世界

【斯坦福博士论文】从互联网视频中学习感知物理世界

专知会员服务

23+阅读 · 2024年12月30日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

基于深度学习的视频内容识别

基于深度学习的视频内容识别

计算机视觉战队

10+阅读 · 2017年8月18日

基于多帧时空信息协同理解的自然感彩色红外成像方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于并行压缩感知理论的红外夜天文图像超分辨率成像方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Arxiv

0+阅读 · 2月5日

AccidentSim: Generating Vehicle Collision Videos with Physically Realistic Collision Trajectories from Real-World Accident Reports

Arxiv

0+阅读 · 2月4日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

Physics-Aware Novel-View Acoustic Synthesis with Vision-Language Priors and 3D Acoustic Environment Modeling

Arxiv

0+阅读 · 1月27日

PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models

Arxiv

0+阅读 · 1月22日

PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

Arxiv

0+阅读 · 1月16日

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Arxiv

0+阅读 · 1月15日

VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding

Arxiv

0+阅读 · 1月12日

VideoMemory: Toward Consistent Video Generation via Memory Integration

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

相关VIP内容

机器人领域的视频生成模型：应用、研究挑战与未来展望

机器人领域的视频生成模型：应用、研究挑战与未来展望

专知会员服务

17+阅读 · 1月13日

物理学中的高级深度学习

物理学中的高级深度学习

专知会员服务

19+阅读 · 2025年12月9日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

视频生成中的物理认知演进探究：一项综述

视频生成中的物理认知演进探究：一项综述

专知会员服务

16+阅读 · 2025年3月30日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

【斯坦福博士论文】从互联网视频中学习感知物理世界

【斯坦福博士论文】从互联网视频中学习感知物理世界

专知会员服务

23+阅读 · 2024年12月30日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

基于深度学习的视频内容识别

基于深度学习的视频内容识别

计算机视觉战队

10+阅读 · 2017年8月18日

相关论文

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Arxiv

0+阅读 · 2月5日

AccidentSim: Generating Vehicle Collision Videos with Physically Realistic Collision Trajectories from Real-World Accident Reports

Arxiv

0+阅读 · 2月4日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

Physics-Aware Novel-View Acoustic Synthesis with Vision-Language Priors and 3D Acoustic Environment Modeling

Arxiv

0+阅读 · 1月27日

PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models

Arxiv

0+阅读 · 1月22日

PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

Arxiv

0+阅读 · 1月16日

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Arxiv

0+阅读 · 1月15日

VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding

Arxiv

0+阅读 · 1月12日

VideoMemory: Toward Consistent Video Generation via Memory Integration

Arxiv

0+阅读 · 1月7日

相关基金

基于多帧时空信息协同理解的自然感彩色红外成像方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于并行压缩感知理论的红外夜天文图像超分辨率成像方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员