Large-scale instance-level training data is scarce, so models are typically trained on domain-specific datasets. Yet in real-world retrieval, they must handle diverse domains, making generalization to unseen data critical. We introduce ELViS, an image-to-image similarity model that generalizes effectively to unseen domains. Unlike conventional approaches, our model operates in similarity space rather than representation space, promoting cross-domain transfer. It leverages local descriptor correspondences, refines their similarities through an optimal transport step with data-dependent gains that suppress uninformative descriptors, and aggregates strong correspondences via a voting process into an image-level similarity. This design injects strong inductive biases, yielding a simple, efficient, and interpretable model. To assess generalization, we compile a benchmark of eight datasets spanning landmarks, artworks, products, and multi-domain collections, and evaluate ELViS as a re-ranking method. Our experiments show that ELViS outperforms competing methods by a large margin in out-of-domain scenarios and on average, while requiring only a fraction of their computational cost. Code available at: https://github.com/pavelsuma/ELViS/


翻译:大规模实例级训练数据稀缺,因此模型通常基于特定领域数据集训练。然而在实际检索任务中,模型需处理多样化领域,故对未见领域的泛化能力至关重要。本文提出ELViS——一种能有效泛化至未见领域的图像间相似度模型。与传统方法不同,该模型在相似度空间而非表示空间内运作,从而促进跨域迁移。它利用局部描述子对应关系,通过最优传输步骤结合数据依赖增益来抑制非信息性描述子并精炼其相似度,最终通过投票过程将强对应关系聚合为图像级相似度。这一设计注入强归纳偏差,构建出简洁、高效且可解释的模型。为评估泛化性能,我们汇编了涵盖地标、艺术品、商品及多领域数据集的八个基准数据集,并将ELViS作为重排序方法进行评估。实验表明,在域外场景及整体平均表现上,ELViS以远低于竞争方法的计算成本实现大幅性能超越。代码地址:https://github.com/pavelsuma/ELViS/

0
下载
关闭预览

相关内容

在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
视觉通用模型综述
专知会员服务
28+阅读 · 2025年6月12日
【CVPR2024】探索视觉基础模型的三维感知能力
专知会员服务
28+阅读 · 2024年4月16日
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
【深度】Deep Visualization:可视化并理解CNN
专知
12+阅读 · 2017年9月30日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月2日
VIP会员
相关主题
最新内容
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
0+阅读 · 今天15:55
GNN跨域综述:从消息传递到图基础模型
专知会员服务
0+阅读 · 今天15:53
无人机自主控制与人工智能:系统性综述
专知会员服务
11+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
相关VIP内容
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
视觉通用模型综述
专知会员服务
28+阅读 · 2025年6月12日
【CVPR2024】探索视觉基础模型的三维感知能力
专知会员服务
28+阅读 · 2024年4月16日
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员