Recent generative video models achieve impressive visual quality but remain constrained by limited physical consistency and controllability. Existing video generation methods provide minimal physical control, and single-image-to-3D conversion approaches often suffer from object interpenetration. Furthermore, physics-based scene-level 3D generation methods exhibit spatial misalignment, stylized artifacts, and inconsistencies with the input data, restricting their use in realistic interactive video synthesis. We propose TelePhysics, a training-free framework that converts a single image into a physically consistent and controllable video through holistic scene-level 3D reconstruction. By representing the full scene geometry in a unified spatial coordinate system, TelePhysics resolves object penetration and alignment ambiguity. Unlike prior methods, this formulation enables accurate scenelevel multi-object interactions and introduces richer, complex control types for advanced mechanicsbased manipulation. By decoupling simulation from rendering, TelePhysics bypasses latency-heavy priors, achieving real-time physical interaction previews paired while preserving photorealistic visual fidelity. Experimental results demonstrate that TelePhysics substantially outperforms prior methods in physical fidelity, spatial coherence, and controllability. The open-source code is available at https://github.com/xinzhang007/TelePhysics.


翻译:近期生成的视频模型在视觉质量上取得了令人瞩目的效果,但仍受限于物理一致性和可控性不足。现有视频生成方法仅提供有限的物理控制,而单图像到3D转换方法常面临物体相互穿透的问题。此外,基于物理的场景级3D生成方法存在空间错位、风格化伪影以及与输入数据不一致的缺陷,限制了其在逼真交互式视频合成中的应用。我们提出TelePhysics——一种无需训练的框架,通过整体场景级3D重建将单张图像转化为物理一致且可控的视频。通过在全场景统一空间坐标系中表示几何结构,TelePhysics解决了物体穿透与对齐歧义问题。与先前方法不同,该框架能实现精确的场景级多物体交互,并引入更丰富、复杂的控制类型以支持基于力学的高级操控。通过解耦模拟与渲染,TelePhysics绕过了高延迟先验,在保持照片级视觉保真度的同时,实现了实时物理交互预览。实验结果表明,TelePhysics在物理保真度、空间连贯性和可控性方面显著优于现有方法。开源代码已发布于https://github.com/xinzhang007/TelePhysics。

0
下载
关闭预览

相关内容

视频生成中的物理认知演进探究:一项综述
专知会员服务
17+阅读 · 2025年3月30日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
【HKUST博士论文】单视图图像的高质量3D生成
专知会员服务
15+阅读 · 2025年1月21日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
25+阅读 · 2024年9月2日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
深度相机原理揭秘--双目立体视觉
计算机视觉life
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员