Worldwide image geolocalization, which aims to predict the GPS coordinates of any image on Earth, remains challenging due to global visual diversity. Recent generative approaches based on Retrieval-Augmented Generation (RAG) and Large Multimodal Models (LMMs) leverage candidates retrieved from fixed databases for reasoning, but often struggle with scenes that are absent from the reference set. In this work, we propose GeoSearch, an open-world geolocation framework that integrates web-scale reverse image search into the RAG pipeline. GeoSearch augments LMM prompts with database-retrieved coordinates and textual evidence extracted from web pages. To mitigate noise from irrelevant content, we introduce a two-layer filtering mechanism consisting of image matching, followed by confidence-based gating. Experiments on standard benchmarks Im2GPS3k and YFCC4k demonstrate the superiority of GeoSearch under leakage-aware evaluation. Our code and data are publicly available to support reproducibility.


翻译:全球图像地理定位旨在预测地球上任一图像的GPS坐标,但由于全球视觉多样性始终面临挑战。基于检索增强生成(RAG)与大语言多模态模型(LMMs)的生成式方法虽可借助固定数据库中检索的候选信息进行推理,但常难以处理参考集缺失的自然场景。本文提出GeoSearch——一种开放世界地理定位框架,通过将网页级逆向图像搜索集成至RAG流程,利用数据库检索坐标及网页文本证据增强LMM提示。为抑制不相关内容引入的噪声,我们设计双层过滤机制:先进行图像匹配,再实施基于置信度的门控控制。在标准基准Im2GPS3k与YFCC4k上的实验表明,GeoSearch在泄漏感知评估方案下具有显著优势。我们公开代码与数据以支持结果可复现性。

0
下载
关闭预览

相关内容

【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
Python地理数据处理,362页pdf,Geoprocessing with Python
专知会员服务
116+阅读 · 2020年5月24日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Elasticsearch地理信息存储及查询之Geo_Point
Analysys易观
13+阅读 · 2018年12月29日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
GIS最新热点以及未来发展热门
人工智能学家
10+阅读 · 2018年3月29日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
Python地理数据处理,362页pdf,Geoprocessing with Python
专知会员服务
116+阅读 · 2020年5月24日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员