物理一致性视频生成(Physically Plausible Video Generation, PPVG)已成为模拟现实世界物理现象的一种重要范式。PPVG 的核心在于对物理常识的深刻理解,而这对于现有的视频扩散模型而言仍是一项严峻挑战。目前的主流方法多利用大语言模型(LLM)的常识推理能力,将物理概念嵌入提示词(Prompts)中。然而,由于缺乏建模因果演进(Causal Progression)的调节机制,生成模型往往仅能将物理现象渲染为由提示词定义的“孤立瞬间”。 在本文中,我们将 PPVG 视为一系列因果关联且动态演变的事件生成过程。为实现这一范式,我们设计了两个核心模块: 1. 物理驱动的事件链推理(Physics-driven Event Chain Reasoning):该模块利用**思维链(CoT)**推理,将提示词描述的物理现象分解为若干基础事件单元。为消除因果歧义性,我们将物理公式嵌入为约束条件,从而在推理过程中引入确定性的因果依赖。 1. 演变感知的跨模态提示(Transition-aware Cross-modal Prompting, TCP):为确保事件间的连续性,该模块将因果事件单元转化为时序对齐的视觉-语言提示。通过对离散事件描述的整合,该模块能够构建因果一致的叙事逻辑,并结合交互式编辑技术逐步合成各事件的视觉关键帧。

在 PhyGenBench 和 VideoPhy 基准测试上的详尽实验表明,本框架在多物理领域的物理一致性视频生成任务中表现卓越。相关代码即将开源。

成为VIP会员查看完整内容
0

相关内容

【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
视频生成中的物理认知演进探究:一项综述
专知会员服务
17+阅读 · 2025年3月30日
【CVPR2025】具有显式3D建模的世界一致性视频扩散
专知会员服务
11+阅读 · 2025年2月27日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
【CVPR2020】时序分组注意力视频超分
专知会员服务
31+阅读 · 2020年7月1日
CVPR 2020 论文大盘点-光流篇
计算机视觉life
10+阅读 · 2020年7月17日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
【CVPR2019教程】视频理解中的图表示学习
专知
43+阅读 · 2019年6月20日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员