Deep learning methods for Visual Place Recognition (VPR) have advanced significantly, largely driven by large-scale datasets. However, most existing approaches are trained on a single dataset, which can introduce dataset-specific inductive biases and limit model generalization. While multi-dataset joint training offers a promising solution for developing universal VPR models, divergences among training datasets can saturate the limited information capacity in feature aggregation layers, leading to suboptimal performance. To address these challenges, we propose Query-based Adaptive Aggregation (QAA), a novel feature aggregation technique that leverages learned queries as reference codebooks to effectively enhance information capacity without significant computational or parameter complexity. We show that computing the Cross-query Similarity (CS) between query-level image features and reference codebooks provides a simple yet effective way to generate robust descriptors. Our results demonstrate that QAA outperforms state-of-the-art models, achieving balanced generalization across diverse datasets while maintaining peak performance comparable to dataset-specific models. Ablation studies further explore QAA's mechanisms and scalability. Visualizations reveal that the learned queries exhibit diverse attention patterns across datasets. Project page: http://xjh19971.github.io/QAA.


翻译:视觉地点识别(VPR)的深度学习方法已取得显著进展,这主要得益于大规模数据集的驱动。然而,现有方法大多在单一数据集上进行训练,这可能会引入数据集特定的归纳偏差并限制模型的泛化能力。尽管多数据集联合训练为开发通用VPR模型提供了有前景的解决方案,但训练数据集之间的差异会使特征聚合层中有限的信息容量趋于饱和,导致性能欠佳。为应对这些挑战,我们提出了一种新颖的特征聚合技术——基于查询的自适应聚合(QAA),该方法利用学习到的查询作为参考码本,在不显著增加计算或参数复杂度的前提下有效提升信息容量。我们证明,通过计算查询级图像特征与参考码本之间的跨查询相似度(CS),能够以简单而有效的方式生成鲁棒的描述符。实验结果表明,QAA 优于现有最先进的模型,在保持与数据集专用模型相当的峰值性能的同时,实现了跨多样数据集的均衡泛化能力。消融研究进一步探讨了 QAA 的作用机制与可扩展性。可视化结果表明,学习到的查询在不同数据集上展现出多样化的注意力模式。项目页面:http://xjh19971.github.io/QAA。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
深度学习与计算机视觉任务应用综述
深度学习与NLP
51+阅读 · 2018年12月18日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
新兴反无人机技术与不对称防御对策
专知会员服务
1+阅读 · 20分钟前
《美空军条令出版物 3-60,目标定位(2026版)》
专知会员服务
1+阅读 · 26分钟前
《无人机在冲突地区提供紧急医疗与外科支持》
专知会员服务
1+阅读 · 44分钟前
《定向能武器交战授权治理管道》
专知会员服务
1+阅读 · 51分钟前
《人工智能与海军作战》最新报告
专知会员服务
1+阅读 · 今天14:00
具身AI安全综述:风险、攻击与防御
专知会员服务
2+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员