DiffVL：基于扩散模型的视觉定位——通过BEV条件化GPS去噪在二维地图上的实现 (DiffVL: Diffusion-Based Visual Localization on 2D Maps via BEV-Conditioned GPS Denoising) - 专知论文

会员服务 ·

0

GPS · 精度 · 噪声 · 视觉定位 · 去噪 ·

DiffVL: Diffusion-Based Visual Localization on 2D Maps via BEV-Conditioned GPS Denoising

翻译：DiffVL：基于扩散模型的视觉定位——通过BEV条件化GPS去噪在二维地图上的实现

Li Gao,Hongyang Sun,Liu Liu,Yunhao Li,Yang Cai

Accurate visual localization is crucial for autonomous driving, yet existing methods face a fundamental dilemma: While high-definition (HD) maps provide high-precision localization references, their costly construction and maintenance hinder scalability, which drives research toward standard-definition (SD) maps like OpenStreetMap. Current SD-map-based approaches primarily focus on Bird's-Eye View (BEV) matching between images and maps, overlooking a ubiquitous signal-noisy GPS. Although GPS is readily available, it suffers from multipath errors in urban environments. We propose DiffVL, the first framework to reformulate visual localization as a GPS denoising task using diffusion models. Our key insight is that noisy GPS trajectory, when conditioned on visual BEV features and SD maps, implicitly encode the true pose distribution, which can be recovered through iterative diffusion refinement. DiffVL, unlike prior BEV-matching methods (e.g., OrienterNet) or transformer-based registration approaches, learns to reverse GPS noise perturbations by jointly modeling GPS, SD map, and visual signals, achieving sub-meter accuracy without relying on HD maps. Experiments on multiple datasets demonstrate that our method achieves state-of-the-art accuracy compared to BEV-matching baselines. Crucially, our work proves that diffusion models can enable scalable localization by treating noisy GPS as a generative prior-making a paradigm shift from traditional matching-based methods.

翻译：精确的视觉定位对于自动驾驶至关重要，然而现有方法面临一个根本性困境：虽然高精地图提供高精度定位参考，但其昂贵的构建和维护成本阻碍了可扩展性，这促使研究转向如OpenStreetMap等标准精度地图。当前基于SD地图的方法主要关注图像与地图之间的鸟瞰图匹配，忽视了普遍存在但含噪声的GPS信号。尽管GPS易于获取，但在城市环境中易受多径误差影响。我们提出DiffVL，首个利用扩散模型将视觉定位重新定义为GPS去噪任务的框架。我们的核心见解是：含噪声的GPS轨迹在视觉BEV特征和SD地图的条件下，隐式编码了真实位姿分布，可通过迭代扩散细化恢复。DiffVL不同于先前的BEV匹配方法（如OrienterNet）或基于Transformer的配准方法，它通过联合建模GPS、SD地图和视觉信号来学习逆转GPS噪声扰动，在不依赖高精地图的情况下实现亚米级精度。在多个数据集上的实验表明，相较于BEV匹配基线方法，我们的方法达到了最先进的精度。重要的是，我们的工作证明了扩散模型能够通过将含噪声GPS视为生成先验来实现可扩展的定位——这标志着与传统基于匹配方法的范式转变。

0

相关内容

GPS

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

景象匹配无人机视觉定位

景象匹配无人机视觉定位

专知会员服务

20+阅读 · 2025年2月20日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

32+阅读 · 2024年10月9日

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

专知会员服务

24+阅读 · 2024年9月1日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

专知会员服务

27+阅读 · 2022年2月8日

高级地图匹配算法：研究现状和趋势

高级地图匹配算法：研究现状和趋势

专知会员服务

18+阅读 · 2021年10月28日

【ICCV2021-Tutorial】大规模视觉定位，151页ppt

专知会员服务

32+阅读 · 2021年10月20日

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新！《2019 智能驾驶高精度地图行业研究报告》发布，19家巨头与初创公司如何定位行业？

最新！《2019 智能驾驶高精度地图行业研究报告》发布，19家巨头与初创公司如何定位行业？

新智驾

14+阅读 · 2019年6月17日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

新智元

35+阅读 · 2017年9月10日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于长距离参考站网的GPS/BDS高精度实时动态定位算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals

Arxiv

0+阅读 · 2月14日

DiffPlace: Street View Generation via Place-Controllable Diffusion Model Enhancing Place Recognition

Arxiv

0+阅读 · 2月12日

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

Arxiv

0+阅读 · 2月2日

CaLiV: LiDAR-to-Vehicle Calibration of Arbitrary Sensor Setups

Arxiv

0+阅读 · 1月30日

HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation

Arxiv

0+阅读 · 1月30日

Online Navigation Refinement: Achieving Lane-Level Guidance by Associating Standard-Definition and Online Perception Maps

Arxiv

0+阅读 · 1月30日

OpenNavMap: Structure-Free Topometric Mapping via Large-Scale Collaborative Localization

Arxiv

0+阅读 · 1月18日

Hybrid guided variational autoencoder for visual place recognition

Arxiv

0+阅读 · 1月14日

DiffMM: Efficient Method for Accurate Noisy and Sparse Trajectory Map Matching via One Step Diffusion

Arxiv

0+阅读 · 1月13日

HisTrackMap: Global Vectorized High-Definition Map Construction via History Map Tracking

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

景象匹配无人机视觉定位

景象匹配无人机视觉定位

专知会员服务

20+阅读 · 2025年2月20日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

32+阅读 · 2024年10月9日

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

【伯克利博士论文】高效的自动驾驶3D视觉，108页pdf

专知会员服务

24+阅读 · 2024年9月1日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

专知会员服务

27+阅读 · 2022年2月8日

高级地图匹配算法：研究现状和趋势

高级地图匹配算法：研究现状和趋势

专知会员服务

18+阅读 · 2021年10月28日

【ICCV2021-Tutorial】大规模视觉定位，151页ppt

专知会员服务

32+阅读 · 2021年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新！《2019 智能驾驶高精度地图行业研究报告》发布，19家巨头与初创公司如何定位行业？

最新！《2019 智能驾驶高精度地图行业研究报告》发布，19家巨头与初创公司如何定位行业？

新智驾

14+阅读 · 2019年6月17日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

新智元

35+阅读 · 2017年9月10日

相关论文

BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals

Arxiv

0+阅读 · 2月14日

DiffPlace: Street View Generation via Place-Controllable Diffusion Model Enhancing Place Recognition

Arxiv

0+阅读 · 2月12日

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

Arxiv

0+阅读 · 2月2日

CaLiV: LiDAR-to-Vehicle Calibration of Arbitrary Sensor Setups

Arxiv

0+阅读 · 1月30日

HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation

Arxiv

0+阅读 · 1月30日

Online Navigation Refinement: Achieving Lane-Level Guidance by Associating Standard-Definition and Online Perception Maps

Arxiv

0+阅读 · 1月30日

OpenNavMap: Structure-Free Topometric Mapping via Large-Scale Collaborative Localization

Arxiv

0+阅读 · 1月18日

Hybrid guided variational autoencoder for visual place recognition

Arxiv

0+阅读 · 1月14日

DiffMM: Efficient Method for Accurate Noisy and Sparse Trajectory Map Matching via One Step Diffusion

Arxiv

0+阅读 · 1月13日

HisTrackMap: Global Vectorized High-Definition Map Construction via History Map Tracking

Arxiv

0+阅读 · 1月13日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于长距离参考站网的GPS/BDS高精度实时动态定位算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员