Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.


翻译:跨视角地理定位通过将地面图像与航空图像数据库进行匹配来估计其地理位置。现有方法要么通过大规模检索实现,要么通过精确位姿估计实现,但无法兼顾两者:基于检索的方法可实现大范围搜索,但牺牲了定位精度;而位姿估计方法仅在狭窄搜索空间内达到高精度。简单级联这些流程会引入误差传播和不一致的特征表示。本文将跨视角地理定位定义为需要同时实现城市级检索与精确3自由度位姿估计的统一问题。我们提出CIPER(跨视角图像检索与位姿估计变换器),这是一种通过互惠特征学习联合执行两项任务的单一架构。CIPER使用共享的Transformer编码器结合任务特定令牌,将全局检索特征与空间定位线索分离。为弥合地面与航空视角间巨大的域差异,我们引入一种双向Transformer位化解码器,该解码器以地面特征作为空间查询实现双向交叉注意力。此外,基于集合预测策略,可在统一多任务目标下实现稳定的3自由度回归。在VIGOR、KITTI和Ford Multi-AV数据集上的实验表明,该方法尤其在有限视场角和任意朝向条件下展现出竞争力。代码开源于https://github.com/yurimjeon1892/CIPER。

0
下载
关闭预览

相关内容

27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
专知会员服务
32+阅读 · 2021年10月20日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
16+阅读 · 2021年4月12日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
40+阅读 · 2020年12月29日
计算机视觉方向简介 | 人体姿态估计
计算机视觉life
28+阅读 · 2019年6月6日
深度学习人体姿态估计算法综述
AI前线
25+阅读 · 2019年5月19日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员