Current video generation models produce high-quality aesthetic videos but often struggle to learn representations of real-world physics dynamics, resulting in artifacts such as unnatural object collisions, inconsistent gravity, and temporal flickering. In this work, we propose PhysVideoGenerator, a proof-of-concept framework that explicitly embeds a learnable physics prior into the video generation process. We introduce a lightweight predictor network, PredictorP, which regresses high-level physical features extracted from a pre-trained Video Joint Embedding Predictive Architecture (V-JEPA 2) directly from noisy diffusion latents. These predicted physics tokens are injected into the temporal attention layers of a DiT-based generator (Latte) via a dedicated cross-attention mechanism. Our primary contribution is demonstrating the technical feasibility of this joint training paradigm: we show that diffusion latents contain sufficient information to recover V-JEPA 2 physical representations, and that multi-task optimization remains stable over training. This report documents the architectural design, technical challenges, and validation of training stability, establishing a foundation for future large-scale evaluation of physics-aware generative models.


翻译:当前的视频生成模型能够生成高质量的美学视频,但往往难以学习真实世界物理动态的表征,从而导致诸如不自然的物体碰撞、不一致的重力以及时间闪烁等伪影。在本工作中,我们提出了PhysVideoGenerator,这是一个概念验证框架,它明确地将一个可学习的物理先验嵌入到视频生成过程中。我们引入了一个轻量级的预测网络PredictorP,它直接从带噪声的扩散潜在空间中回归从预训练的视频联合嵌入预测架构(V-JEPA 2)中提取的高级物理特征。这些预测的物理令牌通过一个专用的交叉注意力机制注入到基于DiT的生成器(Latte)的时间注意力层中。我们的主要贡献在于证明了这种联合训练范式的技术可行性:我们证明了扩散潜在空间包含足够的信息来恢复V-JEPA 2的物理表征,并且多任务优化在训练过程中保持稳定。本报告记录了架构设计、技术挑战以及训练稳定性的验证,为未来大规模评估物理感知生成模型奠定了基础。

0
下载
关闭预览

相关内容

物理学中的高级深度学习
专知会员服务
19+阅读 · 2025年12月9日
视频生成中的物理认知演进探究:一项综述
专知会员服务
16+阅读 · 2025年3月30日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
【斯坦福博士论文】从互联网视频中学习感知物理世界
专知会员服务
23+阅读 · 2024年12月30日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
VIP会员
相关VIP内容
物理学中的高级深度学习
专知会员服务
19+阅读 · 2025年12月9日
视频生成中的物理认知演进探究:一项综述
专知会员服务
16+阅读 · 2025年3月30日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
【斯坦福博士论文】从互联网视频中学习感知物理世界
专知会员服务
23+阅读 · 2024年12月30日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员