M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM - 专知论文

会员服务 ·

0

SLAM · 多视角 · 溅射 · 精度 · 融合 ·

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

翻译：M^3：密集匹配与多视角基础模型融合的单目高斯溅射SLAM

Kerui Ren,Guanghao Li,Changjian Jiang,Yingxiang Xu,Tao Lu,Linning Xu,Junting Dong,Jiangmiao Pang,Mulin Yu,Bo Dai

from arxiv, Project page: https://city-super.github.io/M3/

Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.

翻译：从未标定单目视频流进行实时三维重建仍具挑战性，因其需要在动态环境中同时实现高精度位姿估计与计算高效的在线优化。尽管将三维基础模型与SLAM框架结合是前景广阔的范式，但关键瓶颈依然存在：多数多视角基础模型以前馈方式估计位姿，产生的像素级对应关系缺乏严格几何优化所需精度。为此，我们提出M^3系统，通过为多视角基础模型配备专用匹配头来获取细粒度密集对应关系，并将其集成至鲁棒的单目高斯溅射SLAM框架。M^3进一步引入动态区域抑制与跨推理内参对齐机制以提升跟踪稳定性。在多样化室内外基准测试上的大量实验表明，该系统在位姿估计与场景重建方面均达到最先进精度。值得注意的是，在ScanNet++数据集上，M^3相较于VGGT-SLAM 2.0将ATE RMSE降低64.3%，并在PSNR指标上超越ARTDECO达2.11 dB。

0

相关内容

SLAM

即时定位与地图构建（SLAM或Simultaneouslocalizationandmapping）是这样一种技术：使得机器人和自动驾驶汽车等设备能在未知环境（没有先验知识的前提下）建立地图,或者在已知环境（已给出该地图的先验知识）中能更新地图,并保证这些设备能在同时追踪它们的当前位置。

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

模态感知的特征匹配：单一模态与跨模态技术的全面综述

模态感知的特征匹配：单一模态与跨模态技术的全面综述

专知会员服务

22+阅读 · 2025年8月3日

基于异构数据融合的SLAM 研究综述

基于异构数据融合的SLAM 研究综述

专知会员服务

28+阅读 · 2024年9月18日

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

专知会员服务

27+阅读 · 2024年3月19日

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

专知会员服务

43+阅读 · 2022年4月7日

【博士论文】多视光场光线空间几何模型研究

【博士论文】多视光场光线空间几何模型研究

专知会员服务

24+阅读 · 2021年12月6日

室内移动机器人的SLAM算法综述

专知会员服务

45+阅读 · 2021年9月15日

【开放书】SLAM 中的几何与学习方法，62页pdf

【开放书】SLAM 中的几何与学习方法，62页pdf

专知会员服务

111+阅读 · 2020年6月5日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码！

超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码！

计算机视觉life

35+阅读 · 2020年11月22日

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

实战 | 如何制作一个SLAM轨迹真值获取装置？

实战 | 如何制作一个SLAM轨迹真值获取装置？

计算机视觉life

12+阅读 · 2019年10月16日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

高翔：谈谈语义SLAM/地图

高翔：谈谈语义SLAM/地图

计算机视觉life

37+阅读 · 2019年3月26日

视觉SLAM技术综述

视觉SLAM技术综述

计算机视觉life

27+阅读 · 2019年1月4日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

基于多芯光纤的高精度三维姿态测量关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多元互信息和快速稀疏多核学习的高光谱遥感影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

SLAM as a Stochastic Control Problem with Partial Information: Optimal Solutions and Rigorous Approximations

Arxiv

0+阅读 · 4月23日

RMGS-SLAM: Real-time Multi-sensor Gaussian Splatting SLAM

Arxiv

0+阅读 · 4月14日

WaterSplat-SLAM: Photorealistic Monocular SLAM in Underwater Environment

Arxiv

0+阅读 · 4月6日

Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM

Arxiv

0+阅读 · 4月3日

SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

Arxiv

0+阅读 · 4月3日

Compact Keyframe-Optimized Multi-Agent Gaussian Splatting SLAM

Arxiv

0+阅读 · 4月1日

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

vS-Graphs: Tightly Coupling Visual SLAM and 3D Scene Graphs Exploiting Hierarchical Scene Understanding

Arxiv

0+阅读 · 3月11日

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Arxiv

0+阅读 · 2月24日

Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

2+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

2+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

4+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

4+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

模态感知的特征匹配：单一模态与跨模态技术的全面综述

模态感知的特征匹配：单一模态与跨模态技术的全面综述

专知会员服务

22+阅读 · 2025年8月3日

基于异构数据融合的SLAM 研究综述

基于异构数据融合的SLAM 研究综述

专知会员服务

28+阅读 · 2024年9月18日

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

专知会员服务

27+阅读 · 2024年3月19日

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

专知会员服务

43+阅读 · 2022年4月7日

【博士论文】多视光场光线空间几何模型研究

【博士论文】多视光场光线空间几何模型研究

专知会员服务

24+阅读 · 2021年12月6日

室内移动机器人的SLAM算法综述

专知会员服务

45+阅读 · 2021年9月15日

【开放书】SLAM 中的几何与学习方法，62页pdf

【开放书】SLAM 中的几何与学习方法，62页pdf

专知会员服务

111+阅读 · 2020年6月5日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码！

超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码！

计算机视觉life

35+阅读 · 2020年11月22日

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

实战 | 如何制作一个SLAM轨迹真值获取装置？

实战 | 如何制作一个SLAM轨迹真值获取装置？

计算机视觉life

12+阅读 · 2019年10月16日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

高翔：谈谈语义SLAM/地图

高翔：谈谈语义SLAM/地图

计算机视觉life

37+阅读 · 2019年3月26日

视觉SLAM技术综述

视觉SLAM技术综述

计算机视觉life

27+阅读 · 2019年1月4日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

相关论文

SLAM as a Stochastic Control Problem with Partial Information: Optimal Solutions and Rigorous Approximations

Arxiv

0+阅读 · 4月23日

RMGS-SLAM: Real-time Multi-sensor Gaussian Splatting SLAM

Arxiv

0+阅读 · 4月14日

WaterSplat-SLAM: Photorealistic Monocular SLAM in Underwater Environment

Arxiv

0+阅读 · 4月6日

Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM

Arxiv

0+阅读 · 4月3日

SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

Arxiv

0+阅读 · 4月3日

Compact Keyframe-Optimized Multi-Agent Gaussian Splatting SLAM

Arxiv

0+阅读 · 4月1日

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

vS-Graphs: Tightly Coupling Visual SLAM and 3D Scene Graphs Exploiting Hierarchical Scene Understanding

Arxiv

0+阅读 · 3月11日

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Arxiv

0+阅读 · 2月24日

Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark

Arxiv

0+阅读 · 2月20日

相关基金

基于多芯光纤的高精度三维姿态测量关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多元互信息和快速稀疏多核学习的高光谱遥感影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员