Physics-grounded video generation requires controllable 3D object dynamics that remain physically consistent under contact, deformation, and external forcing. Existing trajectory-based methods often model isolated physical effects, making it difficult to compose conservative and non-conservative dynamics in contact-rich 3D scenes. We present NEXUS, a neural energy-field framework for contact-rich 3D object dynamics. NEXUS represents each object as a structural graph and constructs dynamic object-object and object-environment contact graphs. Inspired by Hamiltonian Neural Networks, NEXUS formulates motion through scalar energy and dissipation terms rather than directly predicting states or accelerations. Conservative effects, including gravity and elastic deformation, are composed as additive energy terms, while non-conservative effects such as damping and impact-induced energy loss are modeled with learned Rayleigh-style dissipation. Forces are derived by differentiating the energy and dissipation functions and rolled out with a multi-substep semi-implicit integrator. Across controlled trajectory benchmarks, NEXUS improves long-horizon accuracy over representative learned and physics-structured dynamics baselines under varying mechanical properties and physical-effect compositions. We further show that NEXUS trajectories provide effective guidance for contact-rich video generation, improving physical plausibility while maintaining competitive visual quality.


翻译:基于物理的视频生成需要可控的3D物体动态,这些动态在接触、变形和外力作用下保持物理一致性。现有的基于轨迹的方法通常对孤立的物理效应进行建模,这使得在接触丰富的3D场景中组合保守力和非保守力动力学变得困难。我们提出了NEXUS,一个用于高接触丰富3D物体动态的神经能量场框架。NEXUS将每个物体表示为一个结构图,并构建动态的物-物和物-环境接触图。受哈密顿神经网络的启发,NEXUS通过标量能量和耗散项来公式化运动,而不是直接预测状态或加速度。保守效应,包括重力和弹性变形,被组合为加性能量项,而非保守效应,如阻尼和冲击引起的能量损失,则通过学习的瑞利式耗散进行建模。力通过对能量和耗散函数求导得到,并通过多子步半隐式积分器进行展开。在受控轨迹基准测试中,NEXUS在不同力学特性和物理效应组合下,相比于代表性的学习型和物理结构化动力学基线,提高了长时间跨度的准确性。我们进一步展示了NEXUS轨迹可以为高接触丰富的视频生成提供有效指导,在提高物理合理性的同时,保持有竞争力的视觉质量。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
23+阅读 · 2023年3月26日
专知会员服务
74+阅读 · 2021年5月28日
关于GANs在医学图像领域应用的总结
计算机视觉life
13+阅读 · 2019年7月25日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度相机原理揭秘--双目立体视觉
计算机视觉life
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
4+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员