Visual Place Recognition (VPR) requires robust retrieval of geotagged images despite large appearance, viewpoint, and environmental variation. Prior methods focus on descriptor fine-tuning or fixed sampling strategies yet neglect the dynamic interplay between spatial context and visual similarity during training. We present SAGE (Spatial-visual Adaptive Graph Exploration), a unified training pipeline that enhances granular spatial-visual discrimination by jointly improving local feature aggregation, organize samples during training, and hard sample mining. We introduce a lightweight Soft Probing module that learns residual weights from training data for patch descriptors before bilinear aggregation, boosting distinctive local cues. During training we reconstruct an online geo-visual graph that fuses geographic proximity and current visual similarity so that candidate neighborhoods reflect the evolving embedding landscape. To concentrate learning on the most informative place neighborhoods, we seed clusters from high-affinity anchors and iteratively expand them with a greedy weighted clique expansion sampler. Implemented with a frozen DINOv2 backbone and parameter-efficient fine-tuning, SAGE achieves SOTA across eight benchmarks. Notably, our method obtains 100% Recall@10 on SPED only using 4096D global descriptors. The code and model are available at https://github.com/chenshunpeng/SAGE.


翻译:视觉地点识别(VPR)要求在地点外观、视角及环境发生显著变化的情况下,仍能鲁棒地检索出地理标记图像。现有方法主要关注描述符微调或固定采样策略,却忽视了训练过程中空间上下文与视觉相似性之间的动态交互作用。本文提出SAGE(空间视觉自适应图探索),一种统一的训练流程,通过联合改进局部特征聚合、组织训练样本以及困难样本挖掘,来增强细粒度的空间视觉判别能力。我们引入了一个轻量级的软探测模块,该模块在双线性聚合之前,从训练数据中学习图像块描述符的残差权重,从而增强具有区分性的局部线索。在训练过程中,我们重建一个在线地理视觉图,该图融合了地理邻近性与当前视觉相似性,使得候选邻域能够反映不断演化的嵌入空间格局。为了将学习集中在信息量最大的地点邻域上,我们从高亲和力锚点出发播种聚类,并使用一种贪心加权团扩展采样器对其进行迭代扩展。SAGE采用冻结的DINOv2主干网络并结合参数高效微调实现,在八个基准测试中均达到了最先进的性能。值得注意的是,我们的方法仅使用4096维全局描述符,便在SPED数据集上实现了100%的Recall@10。代码与模型已在 https://github.com/chenshunpeng/SAGE 开源。

0
下载
关闭预览

相关内容

27页综述,354篇参考文献!最详尽的视觉定位综述来了
专知会员服务
21+阅读 · 2025年2月20日
标注受限场景下的视觉表征与理解
专知会员服务
14+阅读 · 2025年2月6日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
基于深度学习的视觉目标检测技术综述
专知会员服务
61+阅读 · 2022年6月22日
ECCV发布:228页教程全面理解视觉定位技术
专知
17+阅读 · 2018年9月12日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
ECCV发布:228页教程全面理解视觉定位技术
专知
17+阅读 · 2018年9月12日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员