SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization - 专知论文

会员服务 ·

0

鲁棒 · 视场 · 覆盖 · 相同 · 变换 ·

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

翻译：[translated title in Chinese] SinGeo: 释放单一模型潜能实现鲁棒的跨视角地理定位

Yang Chen,Xieyuanli Chen,Junxiang Li,Jie Tang,Tao Wu

Robust cross-view geo-localization (CVGL) remains challenging despite the surge in recent progress. Existing methods still rely on field-of-view (FoV)-specific training paradigms, where models are optimized under a fixed FoV but collapse when tested on unseen FoVs and unknown orientations. This limitation necessitates deploying multiple models to cover diverse variations. Although studies have explored dynamic FoV training by simply randomizing FoVs, they failed to achieve robustness across diverse conditions -- implicitly assuming all FoVs are equally difficult. To address this gap, we present SinGeo, a simple yet powerful framework that enables a single model to realize robust cross-view geo-localization without additional modules or explicit transformations. SinGeo employs a dual discriminative learning architecture that enhances intra-view discriminability within both ground and satellite branches, and is the first to introduce a curriculum learning strategy to achieve robust CVGL. Extensive evaluations on four benchmark datasets reveal that SinGeo sets state-of-the-art (SOTA) results under diverse conditions, and notably outperforms methods specifically trained for extreme FoVs. Beyond superior performance, SinGeo also exhibits cross-architecture transferability. Furthermore, we propose a consistency evaluation method to quantitatively assess model stability under varying views, providing an explainable perspective for understanding and advancing robustness in future CVGL research. Codes will be available upon acceptance.

翻译：[translated abstract in Chinese] 尽管近期研究取得了显著进展，鲁棒的跨视角地理定位（CVGL）仍面临挑战。现有方法仍依赖于视场角（FoV）特定的训练范式，模型在固定FoV下优化，但测试时面对未见过的FoV和未知朝向时性能崩溃。这一局限性迫使部署多个模型以覆盖多种变化。尽管已有研究通过简单随机化FoV来探索动态FoV训练，但这些方法未能实现在多样化条件下的鲁棒性——它们隐含地假设所有FoV具有相同难度。为解决这一不足，我们提出SinGeo，一个简洁而强大的框架，无需额外模块或显式变换即可使单一模型实现鲁棒的跨视角地理定位。SinGeo采用双判别学习架构，增强了地面分支和卫星分支内部的可判别性，并首次引入课程学习策略以实现鲁棒的CVGL。在四个基准数据集上的广泛评估显示，SinGeo在多种条件下均达到最先进（SOTA）结果，且显著优于针对极端FoV专门训练的方法。除了卓越性能，SinGeo还展现出跨架构的可迁移性。此外，我们提出一种一致性评估方法，用于定量衡量模型在不同视角下的稳定性，为理解和推进未来CVGL研究的鲁棒性提供了可解释视角。代码将在论文接收后公开。

0

相关内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

25+阅读 · 2025年12月10日

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27页综述，354篇参考文献！最详尽的视觉定位综述来了

专知会员服务

21+阅读 · 2025年2月20日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

专知会员服务

40+阅读 · 2023年3月1日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

多源信息融合的地外天体表面巡视定位方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

LOCUS: Local Visual Cue Search for Enhancing Fine-Grained Perception in Multimodal Large Language Models

Arxiv

0+阅读 · 6月15日

MVOFormer: Flow-Semantic Transformer for Robust Monocular Visual Odometry

Arxiv

0+阅读 · 6月15日

InfoGeo: Information-Theoretic Object-Centric Learning for Cross-View Generalizable UAV Geo-Localization

Arxiv

0+阅读 · 6月14日

Heterogeneous LiDAR Early Fusion and Learned Re-Ranking Strategy for Robust Long-Term Place Recognition in Unstructured Environments

Arxiv

0+阅读 · 6月11日

DepthMaster: Unified Monocular Depth Estimation for Perspective and Panoramic Images

Arxiv

0+阅读 · 6月11日

CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation

Arxiv

0+阅读 · 6月3日

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Arxiv

0+阅读 · 5月19日

Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images

Arxiv

0+阅读 · 5月18日

Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model

Arxiv

0+阅读 · 5月14日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

5+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

25+阅读 · 2025年12月10日

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27页综述，354篇参考文献！最详尽的视觉定位综述来了

专知会员服务

21+阅读 · 2025年2月20日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

专知会员服务

40+阅读 · 2023年3月1日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

LOCUS: Local Visual Cue Search for Enhancing Fine-Grained Perception in Multimodal Large Language Models

Arxiv

0+阅读 · 6月15日

MVOFormer: Flow-Semantic Transformer for Robust Monocular Visual Odometry

Arxiv

0+阅读 · 6月15日

InfoGeo: Information-Theoretic Object-Centric Learning for Cross-View Generalizable UAV Geo-Localization

Arxiv

0+阅读 · 6月14日

Heterogeneous LiDAR Early Fusion and Learned Re-Ranking Strategy for Robust Long-Term Place Recognition in Unstructured Environments

Arxiv

0+阅读 · 6月11日

DepthMaster: Unified Monocular Depth Estimation for Perspective and Panoramic Images

Arxiv

0+阅读 · 6月11日

CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation

Arxiv

0+阅读 · 6月3日

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Arxiv

0+阅读 · 5月19日

Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images

Arxiv

0+阅读 · 5月18日

Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model

Arxiv

0+阅读 · 5月14日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 5月5日

相关基金

多源信息融合的地外天体表面巡视定位方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员