Range-filtered approximate nearest neighbor (RFANN) search is a fundamental operation in modern data systems. Given a set of objects, each with a vector and a numerical attribute, an RFANN query retrieves the nearest neighbors to a query vector among those objects whose numerical attributes fall within the range specified by the query. Existing state-of-the-art methods for RFANN search often require constructing multiple range-specific graph indexes to achieve high query performance, which incurs significant indexing overhead. To address this, we first establish a novel graph indexing theory, the range-aware relative neighborhood graph (RRNG), which jointly considers spatial and attribute proximity. We prove that the RRNG satisfies two crucial properties: (1) monotonic search-ability, which ensures correct nearest neighbor retrieval via beam search; and (2) structural heredity, which guarantees that any range-induced subgraph remains a valid RRNG, thus enabling efficient search with a single graph index. Based on this theoretical foundation, we propose a new graph index called RNSG as a practical solution that efficiently approximates RRNG. We develop fast algorithms for both constructing the RNSG index and processing RFANN queries with it. Extensive experiments on five real-world datasets show that RNSG achieves significantly higher query performance with a more compact index and lower construction cost than existing state-of-the-art methods.


翻译:范围过滤近似最近邻搜索是现代数据系统中的一项基本操作。给定一组对象,每个对象包含一个向量和一个数值属性,RFANN查询在那些数值属性落在查询指定范围内的对象中,检索与查询向量最接近的邻居。现有的RFANN搜索先进方法通常需要构建多个特定范围的图索引以实现高查询性能,这带来了显著的索引开销。为解决此问题,我们首先建立了一种新颖的图索引理论——范围感知相对邻域图,该理论同时考虑了空间邻近性和属性邻近性。我们证明了RRNG满足两个关键性质:(1)单调搜索能力,确保通过束搜索能够正确检索最近邻;(2)结构遗传性,保证任何范围诱导子图仍是一个有效的RRNG,从而能够使用单一图索引实现高效搜索。基于此理论基础,我们提出了一种名为RNSG的新图索引作为实用解决方案,它能高效地近似RRNG。我们开发了用于构建RNSG索引以及使用该索引处理RFANN查询的快速算法。在五个真实世界数据集上的大量实验表明,与现有的先进方法相比,RNSG以更紧凑的索引和更低的构建成本实现了显著更高的查询性能。

0
下载
关闭预览

相关内容

互联网
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
37+阅读 · 2022年1月3日
“推荐系统”加上“图神经网络”
机器学习与推荐算法
12+阅读 · 2020年3月23日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
0+阅读 · 今天13:45
【博士论文】已对齐人工智能系统的持久脆弱性
专知会员服务
0+阅读 · 今天13:52
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 今天13:41
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 今天12:47
战争机器学习:数据生态系统构建(155页)
专知会员服务
6+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
5+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关VIP内容
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
37+阅读 · 2022年1月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员