Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark - 专知论文

会员服务 ·

0

SLAM · 单目视觉 · 视觉SLAM · 基准 · 基准测试 ·

Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark

翻译：我们是否已掌握深度单目视觉SLAM中的尺度问题？ScaleMaster数据集与基准测试

Hyoseok Ju,Bokeon Suh,Giseop Kim

from arxiv, 8 pages, 9 figures, accepted to ICRA 2026

Recent advances in deep monocular visual Simultaneous Localization and Mapping (SLAM) have achieved impressive accuracy and dense reconstruction capabilities, yet their robustness to scale inconsistency in large-scale indoor environments remains largely unexplored. Existing benchmarks are limited to room-scale or structurally simple settings, leaving critical issues of intra-session scale drift and inter-session scale ambiguity insufficiently addressed. To fill this gap, we introduce the ScaleMaster Dataset, the first benchmark explicitly designed to evaluate scale consistency under challenging scenarios such as multi-floor structures, long trajectories, repetitive views, and low-texture regions. We systematically analyze the vulnerability of state-of-the-art deep monocular visual SLAM systems to scale inconsistency, providing both quantitative and qualitative evaluations. Crucially, our analysis extends beyond traditional trajectory metrics to include a direct map-to-map quality assessment using metrics like Chamfer distance against high-fidelity 3D ground truth. Our results reveal that while recent deep monocular visual SLAM systems demonstrate strong performance on existing benchmarks, they suffer from severe scale-related failures in realistic, large-scale indoor environments. By releasing the ScaleMaster dataset and baseline results, we aim to establish a foundation for future research toward developing scale-consistent and reliable visual SLAM systems.

翻译：深度单目视觉同时定位与建图（SLAM）技术的最新进展已实现令人瞩目的精度与稠密重建能力，然而其在大规模室内环境中应对尺度不一致性的鲁棒性仍亟待探索。现有基准测试局限于房间尺度或结构简单的场景，未能充分解决会话内尺度漂移与会话间尺度模糊性等关键问题。为填补这一空白，我们提出了ScaleMaster数据集——首个专门用于评估多楼层结构、长轨迹、重复视角及低纹理区域等挑战性场景下尺度一致性的基准测试。我们系统分析了当前最先进的深度单目视觉SLAM系统对尺度不一致性的脆弱性，并提供定量与定性评估。尤为关键的是，我们的分析超越了传统轨迹评估指标，通过引入倒角距离等度量方式，实现了基于高精度三维真值的直接地图质量评估。实验结果表明，尽管当前深度单目视觉SLAM系统在现有基准测试中表现优异，但在真实大规模室内环境中仍存在严重的尺度相关失效问题。通过开源ScaleMaster数据集及基线结果，我们旨在为未来开发尺度一致且可靠的视觉SLAM系统奠定研究基础。

0

相关内容

SLAM

即时定位与地图构建（SLAM或Simultaneouslocalizationandmapping）是这样一种技术：使得机器人和自动驾驶汽车等设备能在未知环境（没有先验知识的前提下）建立地图,或者在已知环境（已给出该地图的先验知识）中能更新地图,并保证这些设备能在同时追踪它们的当前位置。

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

基于异构数据融合的SLAM 研究综述

基于异构数据融合的SLAM 研究综述

专知会员服务

28+阅读 · 2024年9月18日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

专知会员服务

43+阅读 · 2022年4月7日

深度医学图像配准研究进展：迈向无监督学习

专知会员服务

31+阅读 · 2021年9月23日

室内移动机器人的SLAM算法综述

专知会员服务

45+阅读 · 2021年9月15日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

实战 | 如何制作一个SLAM轨迹真值获取装置？

实战 | 如何制作一个SLAM轨迹真值获取装置？

计算机视觉life

12+阅读 · 2019年10月16日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

经验分享 | SLAM、3D vision笔试面试问题

经验分享 | SLAM、3D vision笔试面试问题

计算机视觉life

25+阅读 · 2019年5月1日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

视觉SLAM技术综述

视觉SLAM技术综述

计算机视觉life

27+阅读 · 2019年1月4日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

跨尺度空间全方位三维激光传感原理与关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

合成孔径雷达（SAR）在地球科学应用中的尺度效应研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

飞秒激光三维形貌测量方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

SyMTRS: Benchmark Multi-Task Synthetic Dataset for Depth, Domain Adaptation and Super-Resolution in Aerial Imagery

Arxiv

0+阅读 · 4月23日

SLAM as a Stochastic Control Problem with Partial Information: Optimal Solutions and Rigorous Approximations

Arxiv

0+阅读 · 4月23日

MR.ScaleMaster: Scale-Consistent Collaborative Mapping from Crowd-Sourced Monocular Videos

Arxiv

0+阅读 · 4月13日

Deep Learning-Powered Visual SLAM Aimed at Assisting Visually Impaired Navigation

Arxiv

0+阅读 · 4月9日

An RTK-SLAM Dataset for Absolute Accuracy Evaluation in GNSS-Degraded Environments

Arxiv

0+阅读 · 4月8日

SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

Arxiv

0+阅读 · 4月3日

PanoAir: A Panoramic Visual-Inertial SLAM with Cross-Time Real-World UAV Dataset

Arxiv

0+阅读 · 4月1日

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Arxiv

0+阅读 · 3月17日

DAGS-SLAM: Dynamic-Aware 3DGS SLAM via Spatiotemporal Motion Probability and Uncertainty-Aware Scheduling

Arxiv

0+阅读 · 2月25日

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

0+阅读 · 18分钟前

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

1+阅读 · 28分钟前

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

2+阅读 · 33分钟前

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

2+阅读 · 44分钟前

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

3+阅读 · 45分钟前

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

3+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

9+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

4+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

13+阅读 · 2月8日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

基于异构数据融合的SLAM 研究综述

基于异构数据融合的SLAM 研究综述

专知会员服务

28+阅读 · 2024年9月18日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

浙大刘勇教授团队发表综述文章：多源融合SLAM的现状与挑战

专知会员服务

43+阅读 · 2022年4月7日

深度医学图像配准研究进展：迈向无监督学习

专知会员服务

31+阅读 · 2021年9月23日

室内移动机器人的SLAM算法综述

专知会员服务

45+阅读 · 2021年9月15日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

综述 | 激光与视觉融合SLAM

综述 | 激光与视觉融合SLAM

计算机视觉life

18+阅读 · 2020年10月8日

实战 | 如何制作一个SLAM轨迹真值获取装置？

实战 | 如何制作一个SLAM轨迹真值获取装置？

计算机视觉life

12+阅读 · 2019年10月16日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

经验分享 | SLAM、3D vision笔试面试问题

经验分享 | SLAM、3D vision笔试面试问题

计算机视觉life

25+阅读 · 2019年5月1日

如何从零开始系统化学习视觉SLAM？

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

视觉SLAM技术综述

视觉SLAM技术综述

计算机视觉life

27+阅读 · 2019年1月4日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

从零开始一起学习SLAM | SLAM有什么用？

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

相关论文

SyMTRS: Benchmark Multi-Task Synthetic Dataset for Depth, Domain Adaptation and Super-Resolution in Aerial Imagery

Arxiv

0+阅读 · 4月23日

SLAM as a Stochastic Control Problem with Partial Information: Optimal Solutions and Rigorous Approximations

Arxiv

0+阅读 · 4月23日

MR.ScaleMaster: Scale-Consistent Collaborative Mapping from Crowd-Sourced Monocular Videos

Arxiv

0+阅读 · 4月13日

Deep Learning-Powered Visual SLAM Aimed at Assisting Visually Impaired Navigation

Arxiv

0+阅读 · 4月9日

An RTK-SLAM Dataset for Absolute Accuracy Evaluation in GNSS-Degraded Environments

Arxiv

0+阅读 · 4月8日

SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

Arxiv

0+阅读 · 4月3日

PanoAir: A Panoramic Visual-Inertial SLAM with Cross-Time Real-World UAV Dataset

Arxiv

0+阅读 · 4月1日

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

Arxiv

0+阅读 · 3月17日

DAGS-SLAM: Dynamic-Aware 3DGS SLAM via Spatiotemporal Motion Probability and Uncertainty-Aware Scheduling

Arxiv

0+阅读 · 2月25日

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Arxiv

0+阅读 · 2月24日

相关基金

跨尺度空间全方位三维激光传感原理与关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

合成孔径雷达（SAR）在地球科学应用中的尺度效应研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

飞秒激光三维形貌测量方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员