k-approximate nearest neighbor search (k-ANNS) in high-dimensional vector spaces is a fundamental problem across many fields. With the advent of vector databases and retrieval-augmented generation, k-ANNS has garnered increasing attention. Among existing methods, proximity graphs (PG) based approaches are the state-of-the-art (SOTA) methods. However, the construction parameters of PGs significantly impact their search performance. Before constructing a PG for a given dataset, it is essential to tune these parameters, which first recommends a set of promising parameters and then estimates the quality of each parameter by building the corresponding PG and then testing its k-ANNS performance. Given that the construction complexity of PGs is superlinear, building and evaluating graph indexes accounts for the primary cost of parameter tuning. Unfortunately, there is currently no method considered and optimized this process.In this paper, we introduce FastPGT, an efficient framework for tuning the PG construction parameters. FastPGT accelerates parameter estimation by building multiple PGs simultaneously, thereby reducing repeated computations. Moreover, we modify the SOTA tuning model to recommend multiple parameters at once, which can be efficiently estimated using our method of building multiple PGs simultaneously. Through extensive experiments on real-world datasets, we demonstrate that FastPGT achieves up to 2.37x speedup over the SOTA method VDTuner, without compromising tuning quality.


翻译:高维向量空间中的k-近似最近邻搜索(k-ANNS)是跨多个领域的基础性问题。随着向量数据库与检索增强生成技术的发展,k-ANNS日益受到关注。在现有方法中,基于邻近图(PG)的方法代表了当前最先进(SOTA)的技术。然而,PG的构建参数会显著影响其搜索性能。在为给定数据集构建PG之前,必须对这些参数进行调优,该过程首先推荐一组有潜力的参数,然后通过构建相应的PG并测试其k-ANNS性能来评估每个参数的质量。鉴于PG的构建复杂度是超线性的,构建和评估图索引构成了参数调优的主要开销。遗憾的是,目前尚无方法系统考虑并优化这一过程。本文提出FastPGT,一种用于调优PG构建参数的高效框架。FastPGT通过同时构建多个PG来加速参数评估,从而减少重复计算。此外,我们改进了SOTA调优模型,使其能够一次性推荐多个参数,这些参数可利用我们提出的同时构建多个PG的方法进行高效评估。通过在真实数据集上的大量实验,我们证明FastPGT在保持调优质量的前提下,相比SOTA方法VDTuner最高可获得2.37倍的加速比。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Github热门图深度学习(GraphDL)源码与框架
新智元
21+阅读 · 2019年3月19日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员