IVF is one of the most widely used ANNS (Approximate Nearest Neighbors Search) methods in vector databases. The idea of redundant assignment is to assign a data vector to more than one IVF lists for reducing the chance of missing true neighbors in IVF search. However, the naive strategy, which selects the second IVF list based on the distance between a data vector and the list centroids, performs poorly. Previous work focuses only on the inner product distance, while there is no optimized list selection study for the most popular Euclidean space. Moreover, the IVF search may access the same vector in more than one lists, resulting in redundant distance computation and decreasing query throughput. In this paper, we present RAIRS to address the above two challenges. For the challenge of the list selection, we propose an optimized AIR metric for the Euclidean space. AIR takes not only distances but also directions into consideration in order to support queries that are closer to the data vector but father away from the first chosen list's centroid. For the challenge of redundant distance computation, we propose SEIL, an optimized list layout that exploits shared cells to reduce repeated distance computations for IVF search. Our experimental results using representative real-world data sets show that RAIRS out-performs existing redundant assignment solutions and achieves up to 1.33x improvement over the best-performing IVF method, IVF-PQ Fast Scan with refinement.


翻译:倒排文件(IVF)是向量数据库中最广泛使用的近似最近邻搜索(ANNS)方法之一。冗余分配的思想是将一个数据向量分配到多个IVF列表中,以减少IVF搜索中遗漏真实近邻的可能性。然而,朴素策略(即根据数据向量与列表质心之间的距离来选择第二个IVF列表)效果不佳。先前的工作仅关注内积距离,而针对最常用的欧几里得空间,尚无优化的列表选择研究。此外,IVF搜索可能在多个列表中访问同一向量,导致冗余的距离计算并降低查询吞吐量。本文提出RAIRS以应对上述两个挑战。针对列表选择的挑战,我们为欧几里得空间提出了一种优化的AIR度量。AIR不仅考虑距离,还考虑方向,以支持那些更接近数据向量但远离首个所选列表质心的查询。针对冗余距离计算的挑战,我们提出了SEIL,一种优化的列表布局,它利用共享单元来减少IVF搜索中的重复距离计算。我们在代表性真实数据集上的实验结果表明,RAIRS优于现有的冗余分配方案,相比性能最佳的IVF方法(带优化的IVF-PQ快速扫描),实现了最高1.33倍的性能提升。

0
下载
关闭预览

相关内容

推荐系统融合排序的多目标寻优技术
专知会员服务
18+阅读 · 2024年8月17日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
浅析Faiss在推荐系统中的应用及原理
凡人机器学习
11+阅读 · 2020年5月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员