JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space - 专知论文

会员服务 ·

0

三维场景 · 潜空间 · 前馈 · 结构 · 重建 ·

JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

翻译：标题：JointEdit3D：统一潜空间中的前馈式三维场景编辑

Xinnan Zhu,Ruijie Xu,Jiayu Ying,Daoguo Dong,Jiachen Xu,Yuan Xie,Xin Tan

from arxiv, Preprint. Project page: https://xinnan-zhu.github.io/JointEdit3D-Page/

Existing 3D scene editing methods typically rely on per-scene optimization over explicit 3D representations or cascaded edit-and-reconstruct pipelines, resulting in high test-time cost, limited 3D awareness, and structural inconsistencies. To couple appearance synthesis and geometry prediction during editing, we build on a unified RGB-geometry reconstruction-generation latent space and adapt it to feed-forward 3D scene editing. The resulting framework, \textbf{JointEdit3D}, performs asymmetric latent inpainting by observing only a single edited RGB reference latent and generating the remaining RGB views and edited geometry latent under source-scene anchoring. JointEdit3D introduces a dedicated SceneAnchor Branch to inject source-scene structure without forcing direct copying, and adopts edit/background-aware losses to balance edited-region fidelity with unedited-content preservation. To address the lack of paired resources for standardized 3D scene editing evaluation, we introduce SceneEdit3D-15K, a dataset with 15K paired editing samples and renderer-provided 3D annotations, together with SceneEdit3D-Bench, a curated 100-sample benchmark. Experiments show that JointEdit3D improves edited-region quality and 3D structural completeness over prior baselines while maintaining competitive background preservation.

翻译：摘要：现有三维场景编辑方法通常依赖基于显式三维表示的逐场景优化或级联式编辑-重建流水线，导致测试阶段计算成本高、三维感知能力有限及结构不一致性。为在编辑过程中联合外观合成与几何预测，我们构建于统一RGB-几何重建生成潜空间，并将其适配至前馈式三维场景编辑。由此产生的框架**JointEdit3D**通过仅观测单个已编辑RGB参考潜变量，并在源场景锚定下生成其余RGB视图及编辑后的几何潜变量，实现非对称潜空间修复。JointEdit3D引入专用场景锚分支（SceneAnchor Branch），在不强制直接复制的情况下注入源场景结构，并采用编辑/背景感知损失以平衡编辑区域保真度与未编辑内容保持性。针对标准化三维场景编辑评估中配对资源缺失的问题，我们提出包含15K个配对编辑样本及渲染器提供三维标注的SceneEdit3D-15K数据集，以及包含100个精筛选样本的SceneEdit3D-Bench基准。实验表明，JointEdit3D在保持竞争力的背景保留性能的同时，相较先前基线方法提升了编辑区域质量与三维结构完整性。

0

相关内容

三维场景

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

11+阅读 · 6月5日

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

13+阅读 · 4月17日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

三维物体与场景生成的最新进展：综述

三维物体与场景生成的最新进展：综述

专知会员服务

19+阅读 · 2025年4月17日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

倾斜摄影用真三维与电影完美相结合

倾斜摄影用真三维与电影完美相结合

无人机

10+阅读 · 2018年12月4日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于波前动态扫描系统的计算全息三维显示技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

三维显示系统光电特性及图像属性对疲劳度影响的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月16日

Edit3DGS: Unified Framework for Dynamic Head Editing via 2D Instruction-Guided Diffusion and 3D Gaussian Splatting

Arxiv

0+阅读 · 6月16日

MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction

Arxiv

0+阅读 · 6月12日

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月7日

GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes

Arxiv

0+阅读 · 6月3日

Anchor3R: Streaming 3D Reconstruction with Transient Anchors for Long-Horizon Visual Mapping

Arxiv

0+阅读 · 6月3日

GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

Arxiv

0+阅读 · 5月22日

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

Arxiv

0+阅读 · 5月14日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 5月5日

Seed3D 2.0: Advancing High-Fidelity Simulation-Ready 3D Content Generation

Arxiv

0+阅读 · 4月22日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

11+阅读 · 6月5日

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

13+阅读 · 4月17日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

三维物体与场景生成的最新进展：综述

三维物体与场景生成的最新进展：综述

专知会员服务

19+阅读 · 2025年4月17日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

倾斜摄影用真三维与电影完美相结合

倾斜摄影用真三维与电影完美相结合

无人机

10+阅读 · 2018年12月4日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

相关论文

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月16日

Edit3DGS: Unified Framework for Dynamic Head Editing via 2D Instruction-Guided Diffusion and 3D Gaussian Splatting

Arxiv

0+阅读 · 6月16日

MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction

Arxiv

0+阅读 · 6月12日

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月7日

GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes

Arxiv

0+阅读 · 6月3日

Anchor3R: Streaming 3D Reconstruction with Transient Anchors for Long-Horizon Visual Mapping

Arxiv

0+阅读 · 6月3日

GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

Arxiv

0+阅读 · 5月22日

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

Arxiv

0+阅读 · 5月14日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 5月5日

Seed3D 2.0: Advancing High-Fidelity Simulation-Ready 3D Content Generation

Arxiv

0+阅读 · 4月22日

相关基金

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于波前动态扫描系统的计算全息三维显示技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

三维显示系统光电特性及图像属性对疲劳度影响的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员