View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity - 专知论文

会员服务 ·

0

一致 · 三维场景 · 结构 · 路径 · 多视角 ·

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

翻译：通过双路径结构对应与语义连续性实现视图一致的三维场景编辑

Pufan Li,Bi'an Du,Shenghe Zheng,Junyi Yao,Wei Hu

from arxiv, Preprint. 10 pages, 7 figures

Text-driven 3D scene editing has recently attracted increasing attention. Most existing methods follow a render-edit-optimize pipeline, where multi-view images are rendered from a 3D scene, edited with 2D image editors, and then used to optimize the underlying 3D representation. However, cross-view inconsistency remains a major bottleneck. Although recent methods introduce geometric cues, cross-view interactions, or video priors to mitigate this issue, they still largely rely on inference-time synchronization and thus remain limited in robustness and generalization.In this work, we recast multi-view consistent 3D editing from a distributional perspective: 3D scene editing essentially requires a joint distribution modeling across viewpoints.Based on this insight, we propose a view-consistent 3D editing framework that explicitly introduces cross-view dependencies into the editing process. Furthermore, motivated by the observation that structural correspondence and semantic continuity rely on different cross-view cues, we introduce a dual-path consistency mechanism consisting of projection-guided structural guidance and patch-level semantic propagation for effective cross-view editing. Further, we construct a paired multi-view editing dataset that provides reliable supervision for learning cross-view consistency in edited scenes. Extensive experiments demonstrate that our method achieves superior editing performance with precise and consistent views for complex scenes.

翻译：文本驱动的三维场景编辑近年来备受关注。现有方法大多遵循"渲染-编辑-优化"流程，即从三维场景渲染多视角图像，经二维图像编辑器处理后，再用于优化底层三维表征。然而，跨视角不一致性仍是主要瓶颈。尽管近期研究引入几何线索、跨视角交互或视频先验来缓解该问题，但这些方法仍高度依赖推理阶段的同步机制，鲁棒性与泛化能力有限。本文从分布视角重新定义多视角一致的三维编辑问题：三维场景编辑本质要求建立跨视角的联合分布建模。基于这一见解，我们提出一种视图一致的三维编辑框架，将跨视角依赖显式融入编辑过程。此外，受结构对应与语义连续性依赖不同跨视角线索这一现象启发，我们引入双路径一致性机制，包含投影引导的结构引导与补丁级语义传播，以实现高效跨视角编辑。进一步地，我们构建了成对的多视角编辑数据集，为学习编辑场景中的跨视角一致性提供可靠监督。大量实验表明，本方法在复杂场景中可实现精准且保持视图一致的卓越编辑效果。

0

相关内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

12+阅读 · 4月17日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

31+阅读 · 2022年8月24日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

三维视觉前沿进展

专知会员服务

67+阅读 · 2021年5月21日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉life

15+阅读 · 2019年10月10日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas

Arxiv

0+阅读 · 5月1日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月29日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

From Visual Synthesis to Interactive Worlds: Toward Production-Ready 3D Asset Generation

Arxiv

0+阅读 · 4月26日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing

Arxiv

0+阅读 · 4月6日

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Arxiv

0+阅读 · 4月1日

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

Arxiv

0+阅读 · 3月30日

3D-Consistent Multi-View Editing by Correspondence Guidance

Arxiv

0+阅读 · 3月20日

Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation

Arxiv

27+阅读 · 2023年10月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

12+阅读 · 4月17日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

31+阅读 · 2022年8月24日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

三维视觉前沿进展

专知会员服务

67+阅读 · 2021年5月21日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉life

15+阅读 · 2019年10月10日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas

Arxiv

0+阅读 · 5月1日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月29日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

From Visual Synthesis to Interactive Worlds: Toward Production-Ready 3D Asset Generation

Arxiv

0+阅读 · 4月26日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing

Arxiv

0+阅读 · 4月6日

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Arxiv

0+阅读 · 4月1日

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

Arxiv

0+阅读 · 3月30日

3D-Consistent Multi-View Editing by Correspondence Guidance

Arxiv

0+阅读 · 3月20日

Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation

Arxiv

27+阅读 · 2023年10月24日

相关基金

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员