Recent advances in diffusion-based video generation have significantly improved visual quality and short-term temporal coherence. However, existing methods still struggle to produce videos with physically consistent and causally plausible dynamics, especially in scenarios involving long-horizon interactions. This limitation arises from the fact that video diffusion models primarily learn physical consistency implicitly, while vision-language models can directly model physical laws. Based on this idea, in this work, we propose \textbf{CausalMotion}, a training-free framework that injects explicit physical reasoning into video generation through structured intermediate representations. Our key idea is to decouple reasoning from generation by leveraging a vision-language model to decompose a text prompt into a sequence of causally consistent keyframes and object-centric motion trajectories. These representations are then aligned and integrated as soft constraints to guide a pretrained video diffusion model during inference. This design enables explicit modeling of object dynamics and causal transitions without requiring additional training or supervision. Extensive experiments show that our method consistently improves physical plausibility and temporal coherence, particularly in dynamics-intensive scenarios, while maintaining high perceptual video quality.


翻译:近期基于扩散模型的视频生成技术取得了显著进展,显著提升了视觉质量与短期时间连贯性。然而,现有方法在生成具有物理一致性与因果合理动态的视频方面仍面临挑战,尤其是在长程交互场景中。这一局限源于视频扩散模型主要隐式学习物理一致性,而视觉-语言模型能够直接建模物理规律。基于此思路,本文提出\textbf{CausalMotion}——一种无需训练的框架,通过结构化中间表示将显式物理推理注入视频生成过程。核心思想是将推理与生成解耦:利用视觉-语言模型将文本提示分解为因果一致的关键帧序列与以对象为中心的运动轨迹。这些表示经对齐整合后,作为软约束引导预训练视频扩散模型的推理过程。该设计无需额外训练或监督即可实现对象动态与因果转换的显式建模。大量实验表明,本方法在保持高感知视频质量的同时,尤其在动态密集型场景中,持续提升了物理合理性与时间连贯性。

0
下载
关闭预览

相关内容

视频理解:从几何与语义表征到统一模型架构
专知会员服务
20+阅读 · 3月21日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
17+阅读 · 2025年4月30日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
视频生成中的物理认知演进探究:一项综述
专知会员服务
17+阅读 · 2025年3月30日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员