VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale - 专知论文

会员服务 ·

0

重建 · VGG · 前馈 · 三维重建 · 表示 ·

VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale

翻译：VGG-T$^3$：大规模离线前馈三维重建

Sven Elflein,Ruilong Li,Sérgio Agostinho,Zan Gojcic,Laura Leal-Taixé,Qunjie Zhou,Aljosa Osep

from arxiv, CVPR 2026, Project page: https://research.nvidia.com/labs/dvl/projects/vgg-ttt

We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T$^3$ (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a $1k$ image collection in just $54$ seconds, achieving a $11.6\times$ speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.

翻译：本文提出了一种可扩展的三维重建模型，旨在解决离线前馈方法的一个关键局限：其计算与内存需求随输入图像数量呈二次方增长。我们的方法基于一个关键洞见，即这一瓶颈源于场景几何的变长键值（KV）空间表示。我们通过测试时训练将其蒸馏为一个固定大小的多层感知机（MLP）。VGG-T$^3$（视觉几何基础测试时训练）模型的计算复杂度随输入视角数量线性增长，与在线模型类似，仅需$54$秒即可重建包含$1k$张图像的集合，相比依赖softmax注意力的基线方法实现了$11.6$倍的加速。由于本方法保留了全局场景聚合能力，其点云重建误差显著优于其他线性时间复杂度方法。最后，我们通过使用未见图像查询场景表示，展示了模型的视觉定位能力。

0

相关内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

12+阅读 · 4月17日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

23+阅读 · 2025年6月7日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

非刚性场景三维重建的最新趋势：最新技术

非刚性场景三维重建的最新趋势：最新技术

专知会员服务

19+阅读 · 2024年5月16日

【CMU博士论文】稀疏视角三维重建，147页pdf

【CMU博士论文】稀疏视角三维重建，147页pdf

专知会员服务

33+阅读 · 2024年5月16日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

泡泡机器人SLAM

10+阅读 · 2017年12月7日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于混合蛙跳算法的三维重力密度异常快速反演

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于线性规划感知的压缩高光谱遥感图像快速重建

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

时变正交光偏折投影场定量视频测量及其三维重建

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Generalizable Sparse-View 3D Reconstruction from Unconstrained Images

Arxiv

0+阅读 · 4月30日

SS3D: End2End Self-Supervised 3D from Web Videos

Arxiv

0+阅读 · 4月24日

Holo360D: A Large-Scale Real-World Dataset with Continuous Trajectories for Advancing Panoramic 3D Reconstruction and Beyond

Arxiv

0+阅读 · 4月24日

Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Arxiv

0+阅读 · 4月15日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

HD-VGGT: High-Resolution Visual Geometry Transformer

Arxiv

0+阅读 · 4月10日

Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

Arxiv

0+阅读 · 4月9日

HyVGGT-VO: Tightly Coupled Hybrid Dense Visual Odometry with Feed-Forward Models

Arxiv

0+阅读 · 4月2日

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Arxiv

0+阅读 · 3月4日

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

4+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

7+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

7+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

6+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

8+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

9+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

5+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

21+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

20+阅读 · 6月2日

相关VIP内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

12+阅读 · 4月17日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

23+阅读 · 2025年6月7日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

非刚性场景三维重建的最新趋势：最新技术

非刚性场景三维重建的最新趋势：最新技术

专知会员服务

19+阅读 · 2024年5月16日

【CMU博士论文】稀疏视角三维重建，147页pdf

【CMU博士论文】稀疏视角三维重建，147页pdf

专知会员服务

33+阅读 · 2024年5月16日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

【泡泡一分钟】基于紧凑模型表示的三维重建（3dv-12）

泡泡机器人SLAM

10+阅读 · 2017年12月7日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

相关论文

Generalizable Sparse-View 3D Reconstruction from Unconstrained Images

Arxiv

0+阅读 · 4月30日

SS3D: End2End Self-Supervised 3D from Web Videos

Arxiv

0+阅读 · 4月24日

Holo360D: A Large-Scale Real-World Dataset with Continuous Trajectories for Advancing Panoramic 3D Reconstruction and Beyond

Arxiv

0+阅读 · 4月24日

Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Arxiv

0+阅读 · 4月15日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

HD-VGGT: High-Resolution Visual Geometry Transformer

Arxiv

0+阅读 · 4月10日

Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

Arxiv

0+阅读 · 4月9日

HyVGGT-VO: Tightly Coupled Hybrid Dense Visual Odometry with Feed-Forward Models

Arxiv

0+阅读 · 4月2日

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Arxiv

0+阅读 · 3月4日

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Arxiv

0+阅读 · 2月27日

相关基金

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于混合蛙跳算法的三维重力密度异常快速反演

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于线性规划感知的压缩高光谱遥感图像快速重建

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

时变正交光偏折投影场定量视频测量及其三维重建

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员