FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM - 专知论文

会员服务 ·

0

光流 · 一致 · SLAM · 视觉SLAM · 关键帧 ·

2025 年 12 月 31 日

FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM

翻译：FoundationSLAM：释放深度基础模型在全端密集视觉SLAM中的潜力

Yuchen Wu,Jiahe Li,Fabio Tosi,Matteo Poggi,Jin Zheng,Xiao Bai

We present FoundationSLAM, a learning-based monocular dense SLAM system that addresses the absence of geometric consistency in previous flow-based approaches for accurate and robust tracking and mapping. Our core idea is to bridge flow estimation with geometric reasoning by leveraging the guidance from foundation depth models. To this end, we first develop a Hybrid Flow Network that produces geometry-aware correspondences, enabling consistent depth and pose inference across diverse keyframes. To enforce global consistency, we propose a Bi-Consistent Bundle Adjustment Layer that jointly optimizes keyframe pose and depth under multi-view constraints. Furthermore, we introduce a Reliability-Aware Refinement mechanism that dynamically adapts the flow update process by distinguishing between reliable and uncertain regions, forming a closed feedback loop between matching and optimization. Extensive experiments demonstrate that FoundationSLAM achieves superior trajectory accuracy and dense reconstruction quality across multiple challenging datasets, while running in real-time at 18 FPS, demonstrating strong generalization to various scenarios and practical applicability of our method.

翻译：我们提出了FoundationSLAM，一种基于学习的单目密集SLAM系统，旨在解决以往基于光流的方法中几何一致性的缺失，以实现精确且鲁棒的跟踪与建图。我们的核心思想是通过利用基础深度模型的引导，将光流估计与几何推理相融合。为此，我们首先开发了一种混合光流网络，该网络能够生成具有几何感知的对应关系，从而在不同关键帧之间实现一致的深度与姿态推断。为了确保全局一致性，我们提出了一种双一致束调整层，该层在多视图约束下联合优化关键帧姿态与深度。此外，我们引入了一种可靠性感知的细化机制，通过区分可靠区域与不确定区域来自适应地调整光流更新过程，从而在匹配与优化之间形成一个闭环反馈。大量实验表明，FoundationSLAM在多个具有挑战性的数据集上均实现了卓越的轨迹精度与密集重建质量，同时能以18 FPS的速度实时运行，这证明了我们的方法在各种场景下具有强大的泛化能力与实际应用价值。

0

相关内容

可靠且负责任的基础模型：全面综述

可靠且负责任的基础模型：全面综述

专知会员服务

20+阅读 · 2月10日

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【新书】SLAM手册从定位与建图到空间智能，194页pdf

【新书】SLAM手册从定位与建图到空间智能，194页pdf

专知会员服务

61+阅读 · 2024年11月16日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

专知会员服务

27+阅读 · 2024年3月19日

【斯坦福课程】基础模型进展

【斯坦福课程】基础模型进展

专知会员服务

52+阅读 · 2023年1月15日

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

实战 | 如何制作一个SLAM轨迹真值获取装置？

实战 | 如何制作一个SLAM轨迹真值获取装置？

计算机视觉life

12+阅读 · 2019年10月16日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

SLAM中VIO的优势及入门姿势

SLAM中VIO的优势及入门姿势

计算机视觉life

87+阅读 · 2019年5月7日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

视觉SLAM技术综述

视觉SLAM技术综述

计算机视觉life

27+阅读 · 2019年1月4日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

15+阅读 · 2018年4月2日

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

星载多基线与升降轨InSAR提取DEM方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于叠层成像的三维信息加密系统与级联光学攻击模型的研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Towards Next-Generation SLAM: A Survey on 3DGS-SLAM Focusing on Performance, Robustness, and Future Directions

Arxiv

0+阅读 · 2月4日

HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction

Arxiv

0+阅读 · 2月2日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings

Arxiv

0+阅读 · 1月14日

MG-SLAM: Structure Gaussian Splatting SLAM with Manhattan World Hypothesis

Arxiv

0+阅读 · 1月11日

PointSLAM++: Robust Dense Neural Gaussian Point Cloud-based SLAM

Arxiv

0+阅读 · 1月10日

FeatureSLAM: Feature-enriched 3D gaussian splatting SLAM in real time

Arxiv

0+阅读 · 1月9日

SLAM&Render: A Benchmark for the Intersection Between Neural Rendering, Gaussian Splatting and SLAM

Arxiv

0+阅读 · 1月9日

ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

Arxiv

0+阅读 · 1月6日

DenseSplat: Densifying Gaussian Splatting SLAM with Neural Radiance Prior

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 45分钟前

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

1+阅读 · 刚刚

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

1+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

1+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

0+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

8+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

4+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

3+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

13+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

3+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

可靠且负责任的基础模型：全面综述

可靠且负责任的基础模型：全面综述

专知会员服务

20+阅读 · 2月10日

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【新书】SLAM手册从定位与建图到空间智能，194页pdf

【新书】SLAM手册从定位与建图到空间智能，194页pdf

专知会员服务

61+阅读 · 2024年11月16日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

【MIT博士论文】低动态环境中的长期基于对象SLAM，160页pdf

专知会员服务

27+阅读 · 2024年3月19日

【斯坦福课程】基础模型进展

【斯坦福课程】基础模型进展

专知会员服务

52+阅读 · 2023年1月15日

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

实战 | 如何制作一个SLAM轨迹真值获取装置？

实战 | 如何制作一个SLAM轨迹真值获取装置？

计算机视觉life

12+阅读 · 2019年10月16日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

SLAM中VIO的优势及入门姿势

SLAM中VIO的优势及入门姿势

计算机视觉life

87+阅读 · 2019年5月7日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

视觉SLAM技术综述

视觉SLAM技术综述

计算机视觉life

27+阅读 · 2019年1月4日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

【泡泡一分钟】终极SLAM？结合事件相机、RGB和IMU用于高动态、高速场景的鲁棒视觉SLAM

泡泡机器人SLAM

15+阅读 · 2018年4月2日

相关论文

Towards Next-Generation SLAM: A Survey on 3DGS-SLAM Focusing on Performance, Robustness, and Future Directions

Arxiv

0+阅读 · 2月4日

HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction

Arxiv

0+阅读 · 2月2日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings

Arxiv

0+阅读 · 1月14日

MG-SLAM: Structure Gaussian Splatting SLAM with Manhattan World Hypothesis

Arxiv

0+阅读 · 1月11日

PointSLAM++: Robust Dense Neural Gaussian Point Cloud-based SLAM

Arxiv

0+阅读 · 1月10日

FeatureSLAM: Feature-enriched 3D gaussian splatting SLAM in real time

Arxiv

0+阅读 · 1月9日

SLAM&Render: A Benchmark for the Intersection Between Neural Rendering, Gaussian Splatting and SLAM

Arxiv

0+阅读 · 1月9日

ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

Arxiv

0+阅读 · 1月6日

DenseSplat: Densifying Gaussian Splatting SLAM with Neural Radiance Prior

Arxiv

0+阅读 · 1月6日

相关基金

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

星载多基线与升降轨InSAR提取DEM方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于叠层成像的三维信息加密系统与级联光学攻击模型的研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员