The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model \textit{Thinking with Map} ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to \textit{Gemini-3-Pro} with Google Search/Map grounded mode.


翻译:图像地理定位任务旨在利用视觉线索预测图像在地球上任意位置的拍摄地点。现有的大型视觉语言模型方法利用了世界知识、思维链推理和智能体能力,但忽视了人类常用的策略——使用地图。在本研究中,我们首先为模型赋予"基于地图的思考"能力,并将其形式化为地图内智能体循环框架。为此我们开发了一种两阶段优化方案,包括智能体强化学习阶段和并行测试时扩展阶段。强化学习增强了模型的智能体能力以提高采样效率,而并行测试时扩展使模型能在最终预测前探索多条候选路径,这对地理定位至关重要。为在最新真实场景图像上评估我们的方法,我们进一步提出了MAPBench——一个完全由真实世界图像构成的综合性地理定位训练与评估基准。实验结果表明,我们的方法在多数指标上超越了现有开源和闭源模型,特别是在与具备谷歌搜索/地图定位模式的Gemini-3-Pro对比时,将Acc@500m指标从8.0%提升至22.1%。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
33+阅读 · 1月21日
AI 智能体系统:体系架构、应用场景及评估范式
专家报告 | 融合数据先验知识的智能图像增强
中国图象图形学报
16+阅读 · 2020年5月25日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
2026年俄罗斯新型喷气动力无人机Geran-5的技术规格
基于数据优化的人机协同与机器人僚机
专知会员服务
0+阅读 · 今天2:08
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
2+阅读 · 4月15日
《采用系统思维应对混合战争》125页
专知会员服务
5+阅读 · 4月15日
战争机器学习:数据生态系统构建(155页)
专知会员服务
8+阅读 · 4月15日
相关VIP内容
大语言模型的智能体化推理
专知会员服务
33+阅读 · 1月21日
AI 智能体系统:体系架构、应用场景及评估范式
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员