Unified and Efficient Approach for Multi-Vector Similarity Search - 专知论文

会员服务 ·

0

搜索 · 相似性 · 相似性搜索 · 模型评估 · 细粒度 ·

Unified and Efficient Approach for Multi-Vector Similarity Search

翻译：统一高效的多向量相似性搜索方法

Binhan Yang,Yuxiang Zeng,Hengxin Zhang,Zhuanglin Zheng,Yunzhen Chi,Yongxin Tong,Ke Xu

from arxiv, 13 pages, 8 figures

Multi-Vector Similarity Search is essential for fine-grained semantic retrieval in many real-world applications, offering richer representations than traditional single-vector paradigms. Due to the lack of native multi-vector index, existing methods rely on a filter-and-refine framework built upon single-vector indexes. By treating token vectors within each multi-vector object in isolation and ignoring their correlations, these methods face an inherent dilemma: aggressive filtering sacrifices recall, while conservative filtering incurs prohibitive computational cost during refinement. To address this limitation, we propose MV-HNSW, the first native hierarchical graph index designed for multi-vector data. MV-HNSW introduces a novel edge-weight function that satisfies essential properties (symmetry, cardinality robustness, and query consistency) for graph-based indexing, an accelerated multi-vector similarity computation algorithm, and an augmented search strategy that dynamically discovers topologically disconnected yet relevant candidates. Extensive experiments on seven real-world datasets show that MV-HNSW achieves state-of-the-art search performance, maintaining over 90% recall while reducing search latency by up to 14.0$\times$ compared to existing methods.

翻译：多向量相似性搜索在许多实际应用场景中对于细粒度语义检索至关重要，其相比传统单向量范式提供了更丰富的表示能力。由于缺乏原生多向量索引，现有方法依赖于基于单向量索引构建的"过滤-精炼"框架。通过孤立处理每个多向量对象中的词元向量并忽略其相关性，这些方法面临固有困境：激进过滤会牺牲召回率，而保守过滤在精炼阶段会带来难以承受的计算成本。为解决这一局限，我们提出MV-HNSW——首个专为多向量数据设计的原生分层图索引。MV-HNSW引入了满足图索引关键属性（对称性、基数鲁棒性及查询一致性）的新型边权函数、加速的多向量相似性计算算法，以及能动态发现拓扑不连通但相关候选节点的增强搜索策略。在七个真实数据集上的大量实验表明，MV-HNSW实现了最先进的搜索性能，在保持超过90%召回率的同时，相比现有方法将搜索延迟降低了最高14.0倍。

0

相关内容

互联网

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

【SIGIR2024】生成检索作即多向量密集检索

【SIGIR2024】生成检索作即多向量密集检索

专知会员服务

23+阅读 · 2024年4月5日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

专知会员服务

28+阅读 · 2021年5月25日

【CIKM2020】利用自注意力网络使搜索结果多样化

【CIKM2020】利用自注意力网络使搜索结果多样化

专知会员服务

13+阅读 · 2020年11月6日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

推荐系统算法合集，满满都是干货（建议收藏）

推荐系统算法合集，满满都是干货（建议收藏）

七月在线实验室

17+阅读 · 2018年7月23日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

深度学习探索

13+阅读 · 2017年7月16日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

MINT: Multi-Vector Search Index Tuning

Arxiv

0+阅读 · 5月3日

Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing

Arxiv

0+阅读 · 4月30日

MINT: Multi-Vector Search Index Tuning

Arxiv

0+阅读 · 4月25日

Efficient and High-Fidelity Omni Modality Retrieval

Arxiv

0+阅读 · 3月24日

Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval

Arxiv

0+阅读 · 3月21日

GEM: A Native Graph-based Index for Multi-Vector Retrieval

Arxiv

0+阅读 · 3月20日

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Arxiv

0+阅读 · 3月6日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 3月4日

VectorMaton: Efficient Vector Search with Pattern Constraints via an Enhanced Suffix Automaton

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

VIP会员

文章信息

相关主题

相似性搜索

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

【SIGIR2024】生成检索作即多向量密集检索

【SIGIR2024】生成检索作即多向量密集检索

专知会员服务

23+阅读 · 2024年4月5日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

专知会员服务

28+阅读 · 2021年5月25日

【CIKM2020】利用自注意力网络使搜索结果多样化

【CIKM2020】利用自注意力网络使搜索结果多样化

专知会员服务

13+阅读 · 2020年11月6日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

推荐系统算法合集，满满都是干货（建议收藏）

推荐系统算法合集，满满都是干货（建议收藏）

七月在线实验室

17+阅读 · 2018年7月23日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

推荐系统主要算法总结及Youtube深度学习推荐算法实例概括

深度学习探索

13+阅读 · 2017年7月16日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

MINT: Multi-Vector Search Index Tuning

Arxiv

0+阅读 · 5月3日

Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing

Arxiv

0+阅读 · 4月30日

MINT: Multi-Vector Search Index Tuning

Arxiv

0+阅读 · 4月25日

Efficient and High-Fidelity Omni Modality Retrieval

Arxiv

0+阅读 · 3月24日

Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval

Arxiv

0+阅读 · 3月21日

GEM: A Native Graph-based Index for Multi-Vector Retrieval

Arxiv

0+阅读 · 3月20日

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Arxiv

0+阅读 · 3月6日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 3月4日

VectorMaton: Efficient Vector Search with Pattern Constraints via an Enhanced Suffix Automaton

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

相关基金

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员