Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios; (ii) physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps; and (iii) VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback. This combination enables a generative model to produce physically consistent and controllable outputs through variations in physical attributes-without any simulator or geometry reconstruction at inference. On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines, and human studies confirm clearer and more faithful control over physical attributes. Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments.


翻译:现代视频扩散模型在视觉外观合成方面表现出色,但仍面临物理一致性问题:物体漂浮漂移、碰撞缺乏真实回弹效果、材料响应与固有属性不符。本文提出PhyCo框架,将连续、可解释且基于物理约束的控制引入视频生成。该框架包含三大核心组件:(i) 超10万张照片级仿真视频的大规模数据集,在摩擦系数、恢复系数、形变参数和受力条件等维度上进行系统化场景变异;(ii) 基于物理监督的预训练扩散模型微调,通过以像素对齐的物理属性图为条件的ControlNet实现;(iii) 视觉语言模型引导的奖励优化,由经过微调的视觉语言模型通过定向物理查询评估生成视频,并提供可微分反馈。该技术组合使生成模型能够通过物理属性变化,产出物理一致且可控的输出结果,且推理阶段无需任何仿真器或几何重建。在Physics-IQ基准测试中,PhyCo相较强基线显著提升物理真实性,人类测评验证了其对物理属性更清晰、更可靠的操控能力。研究结果表明,该方法为构建超越合成训练环境的物理一致可控生成式视频模型提供了可扩展路径。

0
下载
关闭预览

相关内容

视频生成中的物理认知演进探究:一项综述
专知会员服务
17+阅读 · 2025年3月30日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍
产业智能官
19+阅读 · 2019年1月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍
产业智能官
19+阅读 · 2019年1月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员