Embedding-based dense retrieval has become the cornerstone of many critical applications, where approximate nearest neighbor search (ANNS) queries are often combined with filters on labels such as dates and price ranges. Graph-based indexes achieve state-of-the-art performance on unfiltered ANNS but encounter connectivity breakdown on low-selectivity filtered queries, where qualifying vectors become sparse and the graph structure among them fragments. Recent research proposes specialized graph indexes that address this issue by expanding graph degree, which incurs prohibitively high construction costs. Given these inherent limitations of graph-based methods, we argue for a dual-index architecture and present Curator, a partition-based index that complements existing graph-based approaches for low-selectivity filtered ANNS. Curator builds specialized indexes for different labels within a shared clustering tree, where each index adapts to the distribution of its qualifying vectors to ensure efficient search while sharing structure to minimize memory overhead. The system also supports incremental updates and handles arbitrary complex predicates beyond single-label filters by efficiently constructing temporary indexes on the fly. Our evaluation demonstrates that integrating Curator with state-of-the-art graph indexes reduces low-selectivity query latency by up to 20.9x compared to pre-filtering fallback, while increasing construction time and memory footprint by only 5.5% and 4.3%, respectively.


翻译:基于嵌入的稠密检索已成为众多关键应用的基石,其中近似最近邻搜索(ANNS)查询常与日期、价格区间等标签过滤条件结合使用。基于图的索引在无过滤ANNS上实现了最优性能,但在低选择性过滤查询中面临连通性断裂问题——符合条件的向量变得稀疏,其间的图结构随之碎片化。近期研究提出通过扩大图度来缓解此问题的专用图索引,但会带来极高的构建成本。鉴于图方法存在这些固有局限,我们提出一种双索引架构,并介绍Curator——一种基于分区的索引,可与现有图方法互补以应对低选择性过滤ANNS。Curator在共享聚类树中为不同标签构建专用索引,每个索引适配其对应合格向量的分布以确保高效检索,同时通过共享结构最小化内存开销。该系统还支持增量更新,并能通过动态高效构建临时索引,处理超越单标签过滤的任意复杂谓词。评估结果表明,将Curator与前沿图索引集成后,相比预过滤回退方案,低选择性查询延迟最高降低20.9倍,而构建时间和内存占用仅分别增加5.5%和4.3%。

0
下载
关闭预览

相关内容

【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员