High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.


翻译:高质量的三维场景重建近期已向可泛化的前馈架构发展,使得在单次前向传播中生成复杂环境成为可能。然而,尽管这些模型在静态场景感知中表现出色,其在响应动态人类指令方面仍存在局限,限制了它们在交互应用中的使用。现有的编辑方法通常依赖二维提升策略,即独立编辑每个视角后再将结果提升回三维空间。这种间接流程常导致纹理模糊与几何不一致,因为二维编辑器缺乏跨视角保持结构所需的空间感知能力。为解决这些局限,我们提出VGGT-Edit——一种面向文本条件原生三维场景编辑的前馈框架。VGGT-Edit引入深度同步文本注入机制,将语义引导与骨干网络的空间位姿对齐,确保指令扎根的稳定性。该语义信号随后由残差变换头处理,直接预测三维几何位移以形变场景,同时保持背景稳定性。为确保高保真结果,我们采用包含多项目标的目标函数监督框架,强制几何精度与跨视角一致性。我们还构建DeltaScene数据集——通过自动化流程生成的大规模数据集,并采用三维一致性过滤确保真值质量。实验表明,VGGT-Edit显著优于二维提升基线方法,产生更锐利的物体细节、更强的多视角一致性,并实现近乎实时的推理速度。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
动态三维场景重建研究综述
专知会员服务
36+阅读 · 2024年8月23日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月14日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
动态三维场景重建研究综述
专知会员服务
36+阅读 · 2024年8月23日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员