Monocular visual SLAM enables 3D reconstruction from internet video and autonomous navigation on resource-constrained platforms, yet suffers from scale drift, i.e., the gradual divergence of estimated scale over long sequences. Existing frame-to-frame methods achieve real-time performance through local optimization but accumulate scale drift due to the lack of global constraints among independent windows. To address this, we propose SCE-SLAM, an end-to-end SLAM system that maintains scale consistency through scene coordinate embeddings, which are learned patch-level representations encoding 3D geometric relationships under a canonical scale reference. The framework consists of two key modules: geometry-guided aggregation that leverages 3D spatial proximity to propagate scale information from historical observations through geometry-modulated attention, and scene coordinate bundle adjustment that anchors current estimates to the reference scale through explicit 3D coordinate constraints decoded from the scene coordinate embeddings. Experiments on KITTI, Waymo, and vKITTI demonstrate substantial improvements: our method reduces absolute trajectory error by 8.36m on KITTI compared to the best prior approach, while maintaining 36 FPS and achieving scale consistency across large-scale scenes.


翻译:单目视觉SLAM能够从网络视频中进行三维重建并在资源受限平台上实现自主导航,但其存在尺度漂移问题,即在长序列中估计尺度会逐渐发散。现有的帧间方法通过局部优化实现实时性能,但由于独立窗口间缺乏全局约束,会累积尺度漂移。为解决此问题,我们提出了SCE-SLAM,这是一种通过场景坐标嵌入保持尺度一致性的端到端SLAM系统。场景坐标嵌入是学习得到的块级表示,在规范尺度参考下编码三维几何关系。该框架包含两个关键模块:几何引导聚合模块利用三维空间邻近性,通过几何调制注意力从历史观测中传播尺度信息;场景坐标束调整模块通过从场景坐标嵌入解码出的显式三维坐标约束,将当前估计锚定到参考尺度。在KITTI、Waymo和vKITTI数据集上的实验证明了显著改进:与现有最佳方法相比,我们的方法在KITTI上将绝对轨迹误差降低了8.36米,同时保持36 FPS的帧率,并在大规模场景中实现了尺度一致性。

0
下载
关闭预览

相关内容

即时定位与地图构建(SLAM或Simultaneouslocalizationandmapping)是这样一种技术:使得机器人和自动驾驶汽车等设备能在未知环境(没有先验知识的前提下)建立地图,或者在已知环境(已给出该地图的先验知识)中能更新地图,并保证这些设备能在同时追踪它们的当前位置。
【新书】SLAM手册从定位与建图到空间智能,194页pdf
专知会员服务
61+阅读 · 2024年11月16日
基于异构数据融合的SLAM 研究综述
专知会员服务
28+阅读 · 2024年9月18日
专知会员服务
45+阅读 · 2021年9月15日
【开放书】SLAM 中的几何与学习方法,62页pdf
专知会员服务
111+阅读 · 2020年6月5日
专知会员服务
87+阅读 · 2019年12月13日
超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码!
计算机视觉life
35+阅读 · 2020年11月22日
综述 | 激光与视觉融合SLAM
计算机视觉life
18+阅读 · 2020年10月8日
实战 | 如何制作一个SLAM轨迹真值获取装置?
计算机视觉life
12+阅读 · 2019年10月16日
综述 | SLAM回环检测方法
计算机视觉life
16+阅读 · 2019年8月19日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
如何从零开始系统化学习视觉SLAM?
计算机视觉life
21+阅读 · 2019年4月13日
高翔:谈谈语义SLAM/地图
计算机视觉life
37+阅读 · 2019年3月26日
视觉SLAM技术综述
计算机视觉life
27+阅读 · 2019年1月4日
从零开始一起学习SLAM | SLAM有什么用?
计算机视觉life
18+阅读 · 2018年9月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【新书】SLAM手册从定位与建图到空间智能,194页pdf
专知会员服务
61+阅读 · 2024年11月16日
基于异构数据融合的SLAM 研究综述
专知会员服务
28+阅读 · 2024年9月18日
专知会员服务
45+阅读 · 2021年9月15日
【开放书】SLAM 中的几何与学习方法,62页pdf
专知会员服务
111+阅读 · 2020年6月5日
专知会员服务
87+阅读 · 2019年12月13日
相关资讯
超全汇总 | ORB-SLAM2 / ORB-SLAM3 相关改进代码!
计算机视觉life
35+阅读 · 2020年11月22日
综述 | 激光与视觉融合SLAM
计算机视觉life
18+阅读 · 2020年10月8日
实战 | 如何制作一个SLAM轨迹真值获取装置?
计算机视觉life
12+阅读 · 2019年10月16日
综述 | SLAM回环检测方法
计算机视觉life
16+阅读 · 2019年8月19日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
如何从零开始系统化学习视觉SLAM?
计算机视觉life
21+阅读 · 2019年4月13日
高翔:谈谈语义SLAM/地图
计算机视觉life
37+阅读 · 2019年3月26日
视觉SLAM技术综述
计算机视觉life
27+阅读 · 2019年1月4日
从零开始一起学习SLAM | SLAM有什么用?
计算机视觉life
18+阅读 · 2018年9月17日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员