On-disk graph-based approximate nearest neighbor search (ANNS) is essential for large-scale, high-dimensional vector retrieval, yet its performance is widely recognized to be limited by the prohibitive I/O costs. Interestingly, we observed that the performance of on-disk graph-based index systems is compute-bound, not I/O-bound, with the rising of the vector data dimensionality (e.g., hundreds or thousands). This insight uncovers a significant optimization opportunity: existing on-disk graph-based index systems universally target I/O reduction and largely overlook computational overhead, which leaves a substantial performance improvement space. In this work, we propose AlayaLaser, an efficient on-disk graph-based index system for large-scale high-dimensional vector similarity search. In particular, we first conduct performance analysis on existing on-disk graph-based index systems via the adapted roofline model, then we devise a novel on-disk data layout in AlayaLaser to effectively alleviate the compute-bound, which is revealed by the above roofline model analysis, by exploiting SIMD instructions on modern CPUs. We next design a suite of optimization techniques (e.g., degree-based node cache, cluster-based entry point selection, and early dispatch strategy) to further improve the performance of AlayaLaser. We last conduct extensive experimental studies on a wide range of large-scale high-dimensional vector datasets to verify the superiority of AlayaLaser. Specifically, AlayaLaser not only surpasses existing on-disk graph-based index systems but also matches or even exceeds the performance of in-memory index systems.


翻译:基于磁盘图结构的近似最近邻搜索(ANNS)对于大规模高维向量检索至关重要,但其性能普遍被认为受限于高昂的I/O开销。有趣的是,我们观察到,随着向量数据维度的增加(例如数百或数千维),基于磁盘的图索引系统的性能瓶颈已转变为计算受限,而非I/O受限。这一发现揭示了一个重要的优化机遇:现有的基于磁盘的图索引系统普遍以降低I/O为目标,很大程度上忽略了计算开销,从而留下了巨大的性能提升空间。本文提出AlayaLaser,一个面向大规模高维向量相似性搜索的高效基于磁盘的图索引系统。具体而言,我们首先通过改进的屋顶模型对现有基于磁盘的图索引系统进行性能分析;随后,我们基于上述屋顶模型分析所揭示的计算受限问题,在AlayaLaser中设计了一种新颖的磁盘数据布局,以充分利用现代CPU的SIMD指令来有效缓解该瓶颈。接下来,我们设计了一套优化技术(例如基于度的节点缓存、基于聚类的入口点选择以及早期调度策略)以进一步提升AlayaLaser的性能。最后,我们在多种大规模高维向量数据集上进行了广泛的实验研究,以验证AlayaLaser的优越性。具体而言,AlayaLaser不仅超越了现有的基于磁盘的图索引系统,其性能甚至可与内存索引系统相媲美或更优。

0
下载
关闭预览

相关内容

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员