Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO


翻译:近年来,文本到视频(T2V)生成技术取得了良好的视觉质量,但合成能够忠实遵循物理定律的视频仍然是一个开放挑战。现有方法主要基于图形学或提示扩展,难以推广到简单的模拟环境之外,或学习隐式的物理推理。缺乏包含丰富物理交互和现象的训练数据也是一个问题。在本文中,我们首先引入了一个物理增强的视频数据构建流程 PhyAugPipe,它利用具有思维链推理能力的视觉语言模型(VLM)来收集大规模训练数据集 PhyVidGen-135K。然后,我们构建了一个原则性的物理感知分组直接偏好优化框架 PhyGDPO,该框架基于分组 Plackett-Luce 概率模型,以捕获超越成对比较的整体偏好。在 PhyGDPO 中,我们设计了一种物理引导奖励(PGR)方案,该方案嵌入基于 VLM 的物理奖励,以引导优化朝向物理一致性。我们还提出了一种 LoRA 切换参考(LoRA-SR)方案,以消除内存密集型的参考模型复制,实现高效训练。实验表明,我们的方法在 PhyGenBench 和 VideoPhy2 基准上显著优于最先进的开源方法。更多视频结果请查看我们的项目页面 https://caiyuanhao1998.github.io/project/PhyGDPO。我们的代码、模型和数据将在 https://github.com/caiyuanhao1998/Open-PhyGDPO 发布。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员