Accurate visual localization is crucial for autonomous driving, yet existing methods face a fundamental dilemma: While high-definition (HD) maps provide high-precision localization references, their costly construction and maintenance hinder scalability, which drives research toward standard-definition (SD) maps like OpenStreetMap. Current SD-map-based approaches primarily focus on Bird's-Eye View (BEV) matching between images and maps, overlooking a ubiquitous signal-noisy GPS. Although GPS is readily available, it suffers from multipath errors in urban environments. We propose DiffVL, the first framework to reformulate visual localization as a GPS denoising task using diffusion models. Our key insight is that noisy GPS trajectory, when conditioned on visual BEV features and SD maps, implicitly encode the true pose distribution, which can be recovered through iterative diffusion refinement. DiffVL, unlike prior BEV-matching methods (e.g., OrienterNet) or transformer-based registration approaches, learns to reverse GPS noise perturbations by jointly modeling GPS, SD map, and visual signals, achieving sub-meter accuracy without relying on HD maps. Experiments on multiple datasets demonstrate that our method achieves state-of-the-art accuracy compared to BEV-matching baselines. Crucially, our work proves that diffusion models can enable scalable localization by treating noisy GPS as a generative prior-making a paradigm shift from traditional matching-based methods.


翻译:精确的视觉定位对于自动驾驶至关重要,然而现有方法面临一个根本性困境:虽然高精地图提供高精度定位参考,但其昂贵的构建和维护成本阻碍了可扩展性,这促使研究转向如OpenStreetMap等标准精度地图。当前基于SD地图的方法主要关注图像与地图之间的鸟瞰图匹配,忽视了普遍存在但含噪声的GPS信号。尽管GPS易于获取,但在城市环境中易受多径误差影响。我们提出DiffVL,首个利用扩散模型将视觉定位重新定义为GPS去噪任务的框架。我们的核心见解是:含噪声的GPS轨迹在视觉BEV特征和SD地图的条件下,隐式编码了真实位姿分布,可通过迭代扩散细化恢复。DiffVL不同于先前的BEV匹配方法(如OrienterNet)或基于Transformer的配准方法,它通过联合建模GPS、SD地图和视觉信号来学习逆转GPS噪声扰动,在不依赖高精地图的情况下实现亚米级精度。在多个数据集上的实验表明,相较于BEV匹配基线方法,我们的方法达到了最先进的精度。重要的是,我们的工作证明了扩散模型能够通过将含噪声GPS视为生成先验来实现可扩展的定位——这标志着与传统基于匹配方法的范式转变。

0
下载
关闭预览

相关内容

自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
景象匹配无人机视觉定位
专知会员服务
20+阅读 · 2025年2月20日
三维视觉中的扩散模型:综述
专知会员服务
32+阅读 · 2024年10月9日
【伯克利博士论文】高效的自动驾驶3D视觉,108页pdf
专知会员服务
24+阅读 · 2024年9月1日
高级地图匹配算法:研究现状和趋势
专知会员服务
18+阅读 · 2021年10月28日
专知会员服务
32+阅读 · 2021年10月20日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
ECCV发布:228页教程全面理解视觉定位技术
专知
17+阅读 · 2018年9月12日
Maplab:研究视觉惯性建图和定位的开源框架
泡泡机器人SLAM
16+阅读 · 2018年4月4日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员