As data volumes grow while memory capacity remains limited, disk-resident graph-based approximate nearest neighbor (ANN) methods have become a practical alternative to memory-resident designs, shifting the bottleneck from computation to disk I/O. However, since their technical designs diverge widely across storage, layout, and execution paradigms, a systematic understanding of their fundamental performance trade-offs remains elusive. This paper presents a comprehensive experimental study of disk-resident graph-based ANN methods. First, we decompose such systems into five key technical components, i.e., storage strategy, disk layout, cache management, query execution, and update mechanism, and build a unified taxonomy of existing designs across these components. Second, we conduct fine-grained evaluations of representative strategies for each technical component to analyze the trade-offs in throughput, recall, and resource utilization. Third, we perform comprehensive end-to-end experiments and parameter-sensitivity analyses to evaluate overall system performance under diverse configurations. Fourth, our study reveals several non-obvious findings: (1) vector dimensionality fundamentally reshapes component effectiveness, necessitating dimension-aware design; (2) existing layout strategies exhibit surprisingly low I/O utilization (less than or equal to 15%); (3) page size critically affects feasibility and efficiency, with smaller pages preferred when layouts are carefully optimized; and (4) update strategies present clear workload-dependent trade-offs between in-place and out-of-place designs. Based on these findings, we derive practical guidelines for system design and configuration, and outline promising directions for future research.


翻译:随着数据量的增长而内存容量受限,基于磁盘驻留图的近似最近邻(ANN)方法已成为内存驻留设计的实用替代方案,将性能瓶颈从计算转移至磁盘I/O。然而,由于这些方法在存储策略、磁盘布局和执行范式等方面存在显著差异,对其基本性能权衡的系统性理解仍然不足。本文对基于磁盘驻留图的ANN方法进行了全面的实验研究。首先,我们将此类系统分解为五个关键技术组件,即存储策略、磁盘布局、缓存管理、查询执行和更新机制,并构建了现有设计在这些组件上的统一分类体系。其次,我们对每个技术组件的代表性策略进行细粒度评估,以分析其在吞吐量、召回率和资源利用率方面的权衡。第三,我们执行全面的端到端实验和参数敏感性分析,以评估不同配置下的整体系统性能。第四,我们的研究揭示了若干非显而易见的发现:(1)向量维度从根本上重塑了组件的有效性,需要维度感知的设计;(2)现有布局策略表现出极低的I/O利用率(≤15%);(3)页面大小对可行性和效率具有关键影响,在布局经过精心优化时更倾向于使用较小页面;(4)更新策略在原位设计与异地设计之间存在明显依赖于工作负载的权衡。基于这些发现,我们提出了系统设计与配置的实用指南,并展望了未来研究的有前景方向。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
图注意力网络
科技创新与创业
35+阅读 · 2017年11月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员