Robust cross-view geo-localization (CVGL) remains challenging despite the surge in recent progress. Existing methods still rely on field-of-view (FoV)-specific training paradigms, where models are optimized under a fixed FoV but collapse when tested on unseen FoVs and unknown orientations. This limitation necessitates deploying multiple models to cover diverse variations. Although studies have explored dynamic FoV training by simply randomizing FoVs, they failed to achieve robustness across diverse conditions -- implicitly assuming all FoVs are equally difficult. To address this gap, we present SinGeo, a simple yet powerful framework that enables a single model to realize robust cross-view geo-localization without additional modules or explicit transformations. SinGeo employs a dual discriminative learning architecture that enhances intra-view discriminability within both ground and satellite branches, and is the first to introduce a curriculum learning strategy to achieve robust CVGL. Extensive evaluations on four benchmark datasets reveal that SinGeo sets state-of-the-art (SOTA) results under diverse conditions, and notably outperforms methods specifically trained for extreme FoVs. Beyond superior performance, SinGeo also exhibits cross-architecture transferability. Furthermore, we propose a consistency evaluation method to quantitatively assess model stability under varying views, providing an explainable perspective for understanding and advancing robustness in future CVGL research. Codes will be available upon acceptance.


翻译:[translated abstract in Chinese] 尽管近期研究取得了显著进展,鲁棒的跨视角地理定位(CVGL)仍面临挑战。现有方法仍依赖于视场角(FoV)特定的训练范式,模型在固定FoV下优化,但测试时面对未见过的FoV和未知朝向时性能崩溃。这一局限性迫使部署多个模型以覆盖多种变化。尽管已有研究通过简单随机化FoV来探索动态FoV训练,但这些方法未能实现在多样化条件下的鲁棒性——它们隐含地假设所有FoV具有相同难度。为解决这一不足,我们提出SinGeo,一个简洁而强大的框架,无需额外模块或显式变换即可使单一模型实现鲁棒的跨视角地理定位。SinGeo采用双判别学习架构,增强了地面分支和卫星分支内部的可判别性,并首次引入课程学习策略以实现鲁棒的CVGL。在四个基准数据集上的广泛评估显示,SinGeo在多种条件下均达到最先进(SOTA)结果,且显著优于针对极端FoV专门训练的方法。除了卓越性能,SinGeo还展现出跨架构的可迁移性。此外,我们提出一种一致性评估方法,用于定量衡量模型在不同视角下的稳定性,为理解和推进未来CVGL研究的鲁棒性提供了可解释视角。代码将在论文接收后公开。

0
下载
关闭预览

相关内容

【博士论文】面向开放式世界的鲁棒智能体
专知会员服务
25+阅读 · 2025年12月10日
27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
5+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员