Simultaneous Localization and Mapping (SLAM) is a foundational component in robotics, AR/VR, and autonomous systems. With the rising focus on spatial AI in recent years, combining SLAM with semantic understanding has become increasingly important for enabling intelligent perception and interaction. Recent efforts have explored this integration, but they often rely on depth sensors or closed-set semantic models, limiting their scalability and adaptability in open-world environments. In this work, we present OpenMonoGS-SLAM, the first monocular SLAM framework that unifies 3D Gaussian Splatting (3DGS) with open-set semantic understanding. To achieve our goal, we leverage recent advances in Visual Foundation Models (VFMs), including MASt3R for visual geometry and SAM and CLIP for open-vocabulary semantics. These models provide robust generalization across diverse tasks, enabling accurate monocular camera tracking and mapping, as well as a rich understanding of semantics in open-world environments. Our method operates without any depth input or 3D semantic ground truth, relying solely on self-supervised learning objectives. Furthermore, we propose a memory mechanism specifically designed to manage high-dimensional semantic features, which effectively constructs Gaussian semantic feature maps, leading to strong overall performance. Experimental results demonstrate that our approach achieves performance comparable to or surpassing existing baselines in both closed-set and open-set segmentation tasks, all without relying on supplementary sensors such as depth maps or semantic annotations.


翻译:同步定位与建图(SLAM)是机器人技术、增强现实/虚拟现实(AR/VR)以及自主系统中的基础组件。近年来,随着对空间人工智能的关注度日益提升,将SLAM与语义理解相结合对于实现智能感知与交互变得愈发重要。近期的研究探索了这种融合,但它们通常依赖于深度传感器或闭集语义模型,这限制了其在开放世界环境中的可扩展性和适应性。在本工作中,我们提出了OpenMonoGS-SLAM,这是首个将3D高斯溅射(3DGS)与开放集语义理解相统一的单目SLAM框架。为实现这一目标,我们利用了视觉基础模型(VFMs)的最新进展,包括用于视觉几何的MASt3R模型,以及用于开放词汇语义的SAM和CLIP模型。这些模型在多样化任务中展现出强大的泛化能力,从而实现了精确的单目相机跟踪与建图,以及对开放世界环境中语义的丰富理解。我们的方法无需任何深度输入或3D语义真值,仅依赖于自监督学习目标。此外,我们提出了一种专门设计用于管理高维语义特征的内存机制,该机制能有效构建高斯语义特征图,从而带来优异的整体性能。实验结果表明,我们的方法在闭集和开放集分割任务中均取得了与现有基线相当或更优的性能,且完全不依赖于深度图或语义标注等辅助传感器。

0
下载
关闭预览

相关内容

即时定位与地图构建(SLAM或Simultaneouslocalizationandmapping)是这样一种技术:使得机器人和自动驾驶汽车等设备能在未知环境(没有先验知识的前提下)建立地图,或者在已知环境(已给出该地图的先验知识)中能更新地图,并保证这些设备能在同时追踪它们的当前位置。
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【新书】SLAM手册从定位与建图到空间智能,194页pdf
专知会员服务
61+阅读 · 2024年11月16日
专知会员服务
45+阅读 · 2021年9月15日
【开放书】SLAM 中的几何与学习方法,62页pdf
专知会员服务
111+阅读 · 2020年6月5日
专知会员服务
87+阅读 · 2019年12月13日
综述 | 激光与视觉融合SLAM
计算机视觉life
18+阅读 · 2020年10月8日
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
SLAM中VIO的优势及入门姿势
计算机视觉life
87+阅读 · 2019年5月7日
如何从零开始系统化学习视觉SLAM?
计算机视觉life
21+阅读 · 2019年4月13日
高翔:谈谈语义SLAM/地图
计算机视觉life
37+阅读 · 2019年3月26日
【泡泡机器人】也来谈语义SLAM/语义地图
泡泡机器人SLAM
21+阅读 · 2019年3月12日
激光slam导航方案凭什么更被各大厂家青睐?
计算机视觉life
15+阅读 · 2019年1月25日
视觉SLAM技术综述
计算机视觉life
27+阅读 · 2019年1月4日
从零开始一起学习SLAM | SLAM有什么用?
计算机视觉life
18+阅读 · 2018年9月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
相关VIP内容
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【新书】SLAM手册从定位与建图到空间智能,194页pdf
专知会员服务
61+阅读 · 2024年11月16日
专知会员服务
45+阅读 · 2021年9月15日
【开放书】SLAM 中的几何与学习方法,62页pdf
专知会员服务
111+阅读 · 2020年6月5日
专知会员服务
87+阅读 · 2019年12月13日
相关资讯
综述 | 激光与视觉融合SLAM
计算机视觉life
18+阅读 · 2020年10月8日
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
SLAM中VIO的优势及入门姿势
计算机视觉life
87+阅读 · 2019年5月7日
如何从零开始系统化学习视觉SLAM?
计算机视觉life
21+阅读 · 2019年4月13日
高翔:谈谈语义SLAM/地图
计算机视觉life
37+阅读 · 2019年3月26日
【泡泡机器人】也来谈语义SLAM/语义地图
泡泡机器人SLAM
21+阅读 · 2019年3月12日
激光slam导航方案凭什么更被各大厂家青睐?
计算机视觉life
15+阅读 · 2019年1月25日
视觉SLAM技术综述
计算机视觉life
27+阅读 · 2019年1月4日
从零开始一起学习SLAM | SLAM有什么用?
计算机视觉life
18+阅读 · 2018年9月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员