Recent advances in vision-language models have opened up new possibilities for reasoning-driven image geolocalization. However, existing approaches often rely on synthetic reasoning annotations or external image retrieval, which can limit interpretability and generalizability. In this paper, we present Geo-R, a retrieval-free framework that uncovers structured reasoning paths from existing ground-truth coordinates and optimizes geolocation accuracy via reinforcement learning. We propose the Chain of Region, a rule-based hierarchical reasoning paradigm that generates precise, interpretable supervision by mapping GPS coordinates to geographic entities (e.g., country, province, city) without relying on model-generated or synthetic labels. Building on this, we introduce a lightweight reinforcement learning strategy with coordinate-aligned rewards based on Haversine distance, enabling the model to refine predictions through spatially meaningful feedback. Our approach bridges structured geographic reasoning with direct spatial supervision, yielding improved localization accuracy, stronger generalization, and more transparent inference. Experimental results across multiple benchmarks confirm the effectiveness of Geo-R, establishing a new retrieval-free paradigm for scalable and interpretable image geolocalization. To facilitate further research and ensure reproducibility, both the model and code will be made publicly available.


翻译:近年来,视觉-语言模型的进展为基于推理的图像地理定位开辟了新的可能性。然而,现有方法通常依赖于合成的推理标注或外部图像检索,这可能会限制可解释性和泛化能力。本文提出Geo-R,一种无需检索的框架,它从现有真实坐标中挖掘结构化推理路径,并通过强化学习优化地理定位精度。我们提出了区域链,这是一种基于规则的层次化推理范式,通过将GPS坐标映射到地理实体(例如国家、省份、城市)来生成精确、可解释的监督信号,而无需依赖模型生成或合成的标签。在此基础上,我们引入了一种轻量级强化学习策略,其基于Haversine距离的坐标对齐奖励机制,使模型能够通过具有空间意义的反馈来优化预测。我们的方法将结构化地理推理与直接空间监督相结合,从而提高了定位精度、增强了泛化能力,并实现了更透明的推理过程。在多个基准测试上的实验结果证实了Geo-R的有效性,为可扩展且可解释的图像地理定位建立了一种新的无需检索的范式。为了促进进一步研究并确保可复现性,模型和代码将公开提供。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员