Efficient vector search is essential for powering large-scale AI applications, such as LLMs. Existing solutions are designed for monolithic architectures where compute and memory are tightly coupled. Recently, disaggregated architecture breaks this coupling by separating compution and memory resources into independently scalable pools to improve utilization. However, applying vector database on disaggregated memory system brings unique challenges to system design due to its graph-based index. We present d-HNSW, the first RDMA-based vector search engine optimized for disaggregated memory systems. d-HNSW preserves HNSW's high accuracy while addressing the new system-level challenges introduced by disaggregation: 1) network inefficiency from pointer-chasing traversals, 2) non-contiguous remote memory layout induced by dynamic insertions, 3) redundant data transfers in batch workloads, and 4) resource underutilization due to sequential execution. d-HNSW tackles these challenges through a set of hardware-algorithm co-designed techniques, including 1) balanced clustering with a lightweight representative index to reduce network round-trips and ensure predictable latency, 2) an RDMA-friendly graph layout that preserves data contiguity under dynamic insertions, 3) query-aware data loading to eliminate redundant fetches across batch queries, and 4) a pipelined execution model that overlaps RDMA transfers with computation to hide network latency and improve throughput. Our evaluation results in a public cloud show that d-HNSW achieves up to < 10-2x query latency and > 100x query throughput compared to other baselines, while maintaining a high recall of 94%.


翻译:高效向量搜索对于支撑大规模人工智能应用(如大语言模型)至关重要。现有解决方案专为计算与内存紧耦合的单体架构设计。近年来,解耦架构通过将计算与内存资源分离为可独立扩展的资源池,打破了这种耦合,从而提升了资源利用率。然而,由于向量数据库基于图的索引结构,将其应用于解耦内存系统给系统设计带来了独特的挑战。本文提出了d-HNSW,这是首个针对解耦内存系统优化的、基于RDMA的向量搜索引擎。d-HNSW在保持HNSW高精度的同时,解决了由解耦架构引入的新系统级挑战:1)由指针追逐遍历导致的网络低效,2)动态插入引发的非连续远程内存布局,3)批量工作负载中的冗余数据传输,以及4)顺序执行导致的资源利用不足。d-HNSW通过一系列硬件-算法协同设计技术应对这些挑战,包括:1)采用轻量级代表性索引的平衡聚类,以减少网络往返次数并确保可预测的延迟;2)一种RDMA友好的图布局,可在动态插入下保持数据连续性;3)查询感知的数据加载,以消除批量查询间的冗余数据获取;4)一种流水线执行模型,将RDMA传输与计算重叠,以隐藏网络延迟并提升吞吐量。我们在公有云上的评估结果表明,与其他基线方法相比,d-HNSW实现了高达< 10-2倍的查询延迟和> 100倍的查询吞吐量,同时保持了94%的高召回率。

0
下载
关闭预览

相关内容

面向具身智能的多模态数据存储与检索:综述
专知会员服务
30+阅读 · 2025年8月20日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
最新内容
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
0+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
7+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
2+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员