Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.


翻译:物理原理是真实视觉仿真的基础,但在基于Transformer的视频生成中仍存在显著忽视。这一差距突显了渲染刚体运动——经典力学核心准则——方面的关键局限。尽管计算机图形学与基于物理的仿真器能轻松利用牛顿公式对此类碰撞进行建模,现代预训练-微调范式却在像素级全局去噪过程中丢弃了物体刚性的概念。即使在训练后模型优化过程中完全正确的数学约束也被视为次优解(即条件),这从根本上限制了生成视频的物理真实感。基于这些考量,我们首次提出了一种面向视频生成模型的物理感知强化学习范式,该范式在高维空间中直接强制执行物理碰撞规则,确保物理知识被严格应用而非仅作为条件处理。随后,我们将此范式扩展为统一框架,称为模仿-发现循环(MDcycle),该框架支持大规模微调的同时,完整保留了模型利用物理基础反馈的能力。为验证方法有效性,我们构建了新的基准测试集PhysRVGBench,并进行了广泛的定性与定量实验以全面评估其性能。

0
下载
关闭预览

相关内容

物理学中的高级深度学习
专知会员服务
19+阅读 · 2025年12月9日
视频生成中的物理认知演进探究:一项综述
专知会员服务
16+阅读 · 2025年3月30日
【斯坦福博士论文】从互联网视频中学习感知物理世界
专知会员服务
23+阅读 · 2024年12月30日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员