Approximate nearest neighbor (ANN) search in high-dimensional metric spaces is a fundamental problem with many applications. Over the past decade, proximity graph (PG)-based indexes have demonstrated superior empirical performance over alternatives. However, these methods often lack theoretical guarantees regarding the quality of query results, especially in the worst-case scenarios. In this paper, we introduce the α-convergent graph (α-CG), a new PG structure that employs a carefully designed edge pruning rule. This rule eliminates candidate neighbors for each data point p by applying the shifted-scaled triangle inequalities among p, its existing out-neighbors, and new candidates. If the distance between the query point q and its exact nearest neighbor v* is at most τ for some constant τ > 0, our α-CG finds the exact nearest neighbor in poly-logarithmic time, assuming bounded intrinsic dimensionality for the dataset; otherwise, it can find an ANN in the same time. To enhance scalability, we develop the α-convergent neighborhood graph (α-CNG), a practical variant that applies the pruning rule locally within each point's neighbors. We also introduce optimizations to reduce the index construction time. Experimental results show that our α-CNG outperforms existing PGs on real-world datasets. For most datasets, α-CNG can reduce the number of distance computations and search steps by over 15% and 45%, respectively, when compared with the best-performing baseline.


翻译:高维度量空间中的近似最近邻搜索是一个具有广泛应用的基础性问题。在过去十年中,基于邻近图的索引方法在实证性能上展现出优于其他方法的优势。然而,这些方法通常缺乏关于查询结果质量的理论保证,尤其是在最坏情况下。本文提出α-收敛图,一种采用精心设计的边剪枝规则的新型邻近图结构。该规则通过应用数据点p、其现有出边邻居以及新候选点之间的平移缩放三角不等式,为每个数据点p消除候选邻居。若查询点q与其精确最近邻v*之间的距离对于某个常数τ > 0满足dist(q, v*) ≤ τ,则在假设数据集具有有限本征维度的前提下,我们的α-CG可在多对数时间内找到精确最近邻;否则,它能在相同时间内找到一个近似最近邻。为提升可扩展性,我们开发了α-收敛邻域图,这是一种在局部邻域内应用剪枝规则的实用变体。我们还引入了优化技术以减少索引构建时间。实验结果表明,我们的α-CNG在真实数据集上优于现有邻近图方法。对于大多数数据集,与性能最佳的基线方法相比,α-CNG可将距离计算次数和搜索步骤数分别减少超过15%和45%。

0
下载
关闭预览

相关内容

【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
“推荐系统”加上“图神经网络”
机器学习与推荐算法
12+阅读 · 2020年3月23日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员