Recent advances in vision-language models have opened up new possibilities for reasoning-driven image geolocalization. However, existing approaches often rely on synthetic reasoning annotations or external image retrieval, which can limit interpretability and generalizability. In this paper, we present Geo-R, a retrieval-free framework that uncovers structured reasoning paths from existing ground-truth coordinates and optimizes geolocation accuracy via reinforcement learning. We propose the Chain of Region, a rule-based hierarchical reasoning paradigm that generates precise, interpretable supervision by mapping GPS coordinates to geographic entities (e.g., country, province, city) without relying on model-generated or synthetic labels. Building on this, we introduce a lightweight reinforcement learning strategy with coordinate-aligned rewards based on Haversine distance, enabling the model to refine predictions through spatially meaningful feedback. Our approach bridges structured geographic reasoning with direct spatial supervision, yielding improved localization accuracy, stronger generalization, and more transparent inference. Experimental results across multiple benchmarks confirm the effectiveness of Geo-R, establishing a new retrieval-free paradigm for scalable and interpretable image geolocalization. To facilitate further research and ensure reproducibility, both the model and code will be made publicly available.


翻译:近期视觉-语言模型的进展为推理驱动的图像地理定位开辟了新的可能性。然而,现有方法通常依赖于合成的推理标注或外部图像检索,这可能限制可解释性与泛化能力。本文提出Geo-R,一个无需检索的框架,该框架从现有真实坐标中发掘结构化推理路径,并通过强化学习优化地理定位精度。我们提出了区域链,这是一种基于规则的层次化推理范式,通过将GPS坐标映射到地理实体(例如国家、省份、城市)来生成精确、可解释的监督信号,而无需依赖模型生成或合成的标签。在此基础上,我们引入了一种轻量级强化学习策略,其基于Haversine距离的坐标对齐奖励机制,使模型能够通过具有空间意义的反馈来优化预测。我们的方法将结构化地理推理与直接的空间监督相结合,从而实现了更高的定位精度、更强的泛化能力以及更透明的推理过程。在多个基准测试上的实验结果证实了Geo-R的有效性,为可扩展且可解释的图像地理定位建立了一种新的无需检索的范式。为了促进进一步研究并确保可复现性,模型与代码将公开发布。

0
下载
关闭预览

相关内容

【NeurIPS2023】CQM: 与量化世界模型的课程强化学习
专知会员服务
25+阅读 · 2023年10月29日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员