TelePhysics: Physics-Grounded Multi-Object Scene Generation from a Single Image with Real-Time Interaction - 专知论文

会员服务 ·

0

交互 · 视频 · 基于物理 · 一致 · 可控 ·

TelePhysics: Physics-Grounded Multi-Object Scene Generation from a Single Image with Real-Time Interaction

翻译：TelePhysics：基于物理驱动的单图像多物体场景实时交互生成

Xin Zhang,Yabo Chen,Yijie Fang,Wanying Qu,Haibin Huang,Chi Zhang,Feng Xu,Xuelong Li

Recent generative video models achieve impressive visual quality but remain constrained by limited physical consistency and controllability. Existing video generation methods provide minimal physical control, and single-image-to-3D conversion approaches often suffer from object interpenetration. Furthermore, physics-based scene-level 3D generation methods exhibit spatial misalignment, stylized artifacts, and inconsistencies with the input data, restricting their use in realistic interactive video synthesis. We propose TelePhysics, a training-free framework that converts a single image into a physically consistent and controllable video through holistic scene-level 3D reconstruction. By representing the full scene geometry in a unified spatial coordinate system, TelePhysics resolves object penetration and alignment ambiguity. Unlike prior methods, this formulation enables accurate scenelevel multi-object interactions and introduces richer, complex control types for advanced mechanicsbased manipulation. By decoupling simulation from rendering, TelePhysics bypasses latency-heavy priors, achieving real-time physical interaction previews paired while preserving photorealistic visual fidelity. Experimental results demonstrate that TelePhysics substantially outperforms prior methods in physical fidelity, spatial coherence, and controllability. The open-source code is available at https://github.com/xinzhang007/TelePhysics.

翻译：近期生成的视频模型在视觉质量上取得了令人瞩目的效果，但仍受限于物理一致性和可控性不足。现有视频生成方法仅提供有限的物理控制，而单图像到3D转换方法常面临物体相互穿透的问题。此外，基于物理的场景级3D生成方法存在空间错位、风格化伪影以及与输入数据不一致的缺陷，限制了其在逼真交互式视频合成中的应用。我们提出TelePhysics——一种无需训练的框架，通过整体场景级3D重建将单张图像转化为物理一致且可控的视频。通过在全场景统一空间坐标系中表示几何结构，TelePhysics解决了物体穿透与对齐歧义问题。与先前方法不同，该框架能实现精确的场景级多物体交互，并引入更丰富、复杂的控制类型以支持基于力学的高级操控。通过解耦模拟与渲染，TelePhysics绕过了高延迟先验，在保持照片级视觉保真度的同时，实现了实时物理交互预览。实验结果表明，TelePhysics在物理保真度、空间连贯性和可控性方面显著优于现有方法。开源代码已发布于https://github.com/xinzhang007/TelePhysics。

0

相关内容

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

专知会员服务

6+阅读 · 3月22日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

视频生成中的物理认知演进探究：一项综述

视频生成中的物理认知演进探究：一项综述

专知会员服务

17+阅读 · 2025年3月30日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

39+阅读 · 2025年1月26日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

【ETHZ博士论文】真实世界约束下的2D和3D生成模型

【ETHZ博士论文】真实世界约束下的2D和3D生成模型

专知会员服务

25+阅读 · 2024年9月2日

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

专知会员服务

34+阅读 · 2022年10月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

28+阅读 · 2020年7月26日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

深度相机原理揭秘--双目立体视觉

深度相机原理揭秘--双目立体视觉

计算机视觉life

10+阅读 · 2017年11月7日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

基于随机相位调制的自然场景压缩成像方法与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于像素偏振片的实时相移数字全息技术

国家自然科学基金

0+阅读 · 2014年12月31日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

NEXUS: Neural Energy Fields for Physically Consistent Contact-Rich 3D Object Dynamics

Arxiv

0+阅读 · 6月12日

CausalMotion: Structured Physical Reasoning as Keyframe and Trajectory Guidance for Training-Free Video Generation

Arxiv

0+阅读 · 6月12日

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月7日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image

Arxiv

0+阅读 · 5月28日

LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation

Arxiv

0+阅读 · 5月22日

PhyDetEx: Detecting and Explaining the Physical Plausibility of T2V Models

Arxiv

0+阅读 · 5月18日

3DPhysVideo: Consistency-Guided Flow SDE for Video Generation via 3D Scene Reconstruction and Physical Simulation

Arxiv

0+阅读 · 5月16日

WildRelight: A Real-World Benchmark and Physics-Guided Adaptation for Single-Image Relighting

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

专知会员服务

6+阅读 · 3月22日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

视频生成中的物理认知演进探究：一项综述

视频生成中的物理认知演进探究：一项综述

专知会员服务

17+阅读 · 2025年3月30日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

39+阅读 · 2025年1月26日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

【ETHZ博士论文】真实世界约束下的2D和3D生成模型

【ETHZ博士论文】真实世界约束下的2D和3D生成模型

专知会员服务

25+阅读 · 2024年9月2日

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

专知会员服务

34+阅读 · 2022年10月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

28+阅读 · 2020年7月26日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

深度相机原理揭秘--双目立体视觉

深度相机原理揭秘--双目立体视觉

计算机视觉life

10+阅读 · 2017年11月7日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

NEXUS: Neural Energy Fields for Physically Consistent Contact-Rich 3D Object Dynamics

Arxiv

0+阅读 · 6月12日

CausalMotion: Structured Physical Reasoning as Keyframe and Trajectory Guidance for Training-Free Video Generation

Arxiv

0+阅读 · 6月12日

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月7日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image

Arxiv

0+阅读 · 5月28日

LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation

Arxiv

0+阅读 · 5月22日

PhyDetEx: Detecting and Explaining the Physical Plausibility of T2V Models

Arxiv

0+阅读 · 5月18日

3DPhysVideo: Consistency-Guided Flow SDE for Video Generation via 3D Scene Reconstruction and Physical Simulation

Arxiv

0+阅读 · 5月16日

WildRelight: A Real-World Benchmark and Physics-Guided Adaptation for Single-Image Relighting

Arxiv

0+阅读 · 5月12日

相关基金

基于随机相位调制的自然场景压缩成像方法与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于像素偏振片的实时相移数字全息技术

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员