Multi-Vector Similarity Search is essential for fine-grained semantic retrieval in many real-world applications, offering richer representations than traditional single-vector paradigms. Due to the lack of native multi-vector index, existing methods rely on a filter-and-refine framework built upon single-vector indexes. By treating token vectors within each multi-vector object in isolation and ignoring their correlations, these methods face an inherent dilemma: aggressive filtering sacrifices recall, while conservative filtering incurs prohibitive computational cost during refinement. To address this limitation, we propose MV-HNSW, the first native hierarchical graph index designed for multi-vector data. MV-HNSW introduces a novel edge-weight function that satisfies essential properties (symmetry, cardinality robustness, and query consistency) for graph-based indexing, an accelerated multi-vector similarity computation algorithm, and an augmented search strategy that dynamically discovers topologically disconnected yet relevant candidates. Extensive experiments on seven real-world datasets show that MV-HNSW achieves state-of-the-art search performance, maintaining over 90% recall while reducing search latency by up to 14.0$\times$ compared to existing methods.


翻译:多向量相似性搜索在许多实际应用场景中对于细粒度语义检索至关重要,其相比传统单向量范式提供了更丰富的表示能力。由于缺乏原生多向量索引,现有方法依赖于基于单向量索引构建的"过滤-精炼"框架。通过孤立处理每个多向量对象中的词元向量并忽略其相关性,这些方法面临固有困境:激进过滤会牺牲召回率,而保守过滤在精炼阶段会带来难以承受的计算成本。为解决这一局限,我们提出MV-HNSW——首个专为多向量数据设计的原生分层图索引。MV-HNSW引入了满足图索引关键属性(对称性、基数鲁棒性及查询一致性)的新型边权函数、加速的多向量相似性计算算法,以及能动态发现拓扑不连通但相关候选节点的增强搜索策略。在七个真实数据集上的大量实验表明,MV-HNSW实现了最先进的搜索性能,在保持超过90%召回率的同时,相比现有方法将搜索延迟降低了最高14.0倍。

0
下载
关闭预览

相关内容

互联网
【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
【CIKM2020】利用自注意力网络使搜索结果多样化
专知会员服务
13+阅读 · 2020年11月6日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 5月3日
Arxiv
0+阅读 · 4月25日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员