Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.


翻译:从未标定单目视频流进行实时三维重建仍具挑战性,因其需要在动态环境中同时实现高精度位姿估计与计算高效的在线优化。尽管将三维基础模型与SLAM框架结合是前景广阔的范式,但关键瓶颈依然存在:多数多视角基础模型以前馈方式估计位姿,产生的像素级对应关系缺乏严格几何优化所需精度。为此,我们提出M^3系统,通过为多视角基础模型配备专用匹配头来获取细粒度密集对应关系,并将其集成至鲁棒的单目高斯溅射SLAM框架。M^3进一步引入动态区域抑制与跨推理内参对齐机制以提升跟踪稳定性。在多样化室内外基准测试上的大量实验表明,该系统在位姿估计与场景重建方面均达到最先进精度。值得注意的是,在ScanNet++数据集上,M^3相较于VGGT-SLAM 2.0将ATE RMSE降低64.3%,并在PSNR指标上超越ARTDECO达2.11 dB。

0
下载
关闭预览

相关内容

即时定位与地图构建(SLAM或Simultaneouslocalizationandmapping)是这样一种技术:使得机器人和自动驾驶汽车等设备能在未知环境(没有先验知识的前提下)建立地图,或者在已知环境(已给出该地图的先验知识)中能更新地图,并保证这些设备能在同时追踪它们的当前位置。
基于异构数据融合的SLAM 研究综述
专知会员服务
28+阅读 · 2024年9月18日
【博士论文】多视光场光线空间几何模型研究
专知会员服务
24+阅读 · 2021年12月6日
专知会员服务
45+阅读 · 2021年9月15日
【开放书】SLAM 中的几何与学习方法,62页pdf
专知会员服务
111+阅读 · 2020年6月5日
专知会员服务
87+阅读 · 2019年12月13日
超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码!
计算机视觉life
35+阅读 · 2020年11月22日
综述 | 激光与视觉融合SLAM
计算机视觉life
18+阅读 · 2020年10月8日
实战 | 如何制作一个SLAM轨迹真值获取装置?
计算机视觉life
12+阅读 · 2019年10月16日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
如何从零开始系统化学习视觉SLAM?
计算机视觉life
21+阅读 · 2019年4月13日
高翔:谈谈语义SLAM/地图
计算机视觉life
37+阅读 · 2019年3月26日
视觉SLAM技术综述
计算机视觉life
27+阅读 · 2019年1月4日
从零开始一起学习SLAM | SLAM有什么用?
计算机视觉life
18+阅读 · 2018年9月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关VIP内容
基于异构数据融合的SLAM 研究综述
专知会员服务
28+阅读 · 2024年9月18日
【博士论文】多视光场光线空间几何模型研究
专知会员服务
24+阅读 · 2021年12月6日
专知会员服务
45+阅读 · 2021年9月15日
【开放书】SLAM 中的几何与学习方法,62页pdf
专知会员服务
111+阅读 · 2020年6月5日
专知会员服务
87+阅读 · 2019年12月13日
相关资讯
超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码!
计算机视觉life
35+阅读 · 2020年11月22日
综述 | 激光与视觉融合SLAM
计算机视觉life
18+阅读 · 2020年10月8日
实战 | 如何制作一个SLAM轨迹真值获取装置?
计算机视觉life
12+阅读 · 2019年10月16日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
如何从零开始系统化学习视觉SLAM?
计算机视觉life
21+阅读 · 2019年4月13日
高翔:谈谈语义SLAM/地图
计算机视觉life
37+阅读 · 2019年3月26日
视觉SLAM技术综述
计算机视觉life
27+阅读 · 2019年1月4日
从零开始一起学习SLAM | SLAM有什么用?
计算机视觉life
18+阅读 · 2018年9月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员