We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T$^3$ (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a $1k$ image collection in just $54$ seconds, achieving a $11.6\times$ speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.


翻译:本文提出了一种可扩展的三维重建模型,旨在解决离线前馈方法的一个关键局限:其计算与内存需求随输入图像数量呈二次方增长。我们的方法基于一个关键洞见,即这一瓶颈源于场景几何的变长键值(KV)空间表示。我们通过测试时训练将其蒸馏为一个固定大小的多层感知机(MLP)。VGG-T$^3$(视觉几何基础测试时训练)模型的计算复杂度随输入视角数量线性增长,与在线模型类似,仅需$54$秒即可重建包含$1k$张图像的集合,相比依赖softmax注意力的基线方法实现了$11.6$倍的加速。由于本方法保留了全局场景聚合能力,其点云重建误差显著优于其他线性时间复杂度方法。最后,我们通过使用未见图像查询场景表示,展示了模型的视觉定位能力。

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
1+阅读 · 4月17日
深度学习的多视角三维重建技术综述
专知会员服务
21+阅读 · 2025年6月7日
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
非刚性场景三维重建的最新趋势:最新技术
专知会员服务
19+阅读 · 2024年5月16日
【CMU博士论文】稀疏视角三维重建,147页pdf
专知会员服务
32+阅读 · 2024年5月16日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
专知会员服务
56+阅读 · 2021年4月4日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
【泡泡一分钟】基于紧凑模型表示的三维重建(3dv-12)
泡泡机器人SLAM
10+阅读 · 2017年12月7日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
2+阅读 · 4月17日
【CMU博士论文】迈向可扩展的开放世界三维感知
前馈式三维场景建模
专知会员服务
1+阅读 · 4月17日
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
3+阅读 · 4月17日
相关VIP内容
前馈式三维场景建模
专知会员服务
1+阅读 · 4月17日
深度学习的多视角三维重建技术综述
专知会员服务
21+阅读 · 2025年6月7日
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
非刚性场景三维重建的最新趋势:最新技术
专知会员服务
19+阅读 · 2024年5月16日
【CMU博士论文】稀疏视角三维重建,147页pdf
专知会员服务
32+阅读 · 2024年5月16日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
专知会员服务
56+阅读 · 2021年4月4日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员