The metric skip-list is a data structure designed for efficient nearest and $k$-nearest neighbor search in metric spaces. For many real-world datasets with reasonable distributions - specifically, those with a constant expansion rate - it supports $\tilde{O}(n)$ construction time and $O(k\log n)$ query time, where $n$ is the input size and $k$ is the number of nearest neighbors in queries. Notably, unlike alternative approaches, it does not require a bounded aspect ratio, making it more flexible for input data distributions. However, the inherently sequential nature of its original construction has, to our knowledge, precluded any existing parallel algorithm. In this paper, we present highly parallel and work-efficient algorithms for constructing metric skip lists. Under the assumption of a constant expansion rate, our approach achieves an expected work of $O(n \log n)$ and a polylogarithmic span with high probability. Our design is based on novel algorithmic insights that improves the sequential procedure, enabling a divide-and-conquer strategy that facilitates parallelism while maintaining efficiency. With our algorithms, we can also support improved bounds for relevant applications using nearest neighbor as building blocks, including bichromatic closest pair (BCP), density-based clustering, and $k$-NN graph construction, among others. To our knowledge, many of these results represent the first solutions to achieve both work efficiency and polylogarithmic span, relying solely on the assumption of a constant expansion rate.


翻译:度量跳表是一种专为度量空间中高效最近邻和$k$-最近邻搜索而设计的数据结构。对于许多具有合理分布(特别是具有恒定扩展率)的真实世界数据集,它支持$\tilde{O}(n)$构建时间和$O(k\log n)$查询时间,其中$n$为输入规模,$k$为查询中最近邻的数量。值得注意的是,与其他方法不同,它不需要有界纵横比,从而对输入数据分布更具灵活性。然而,其原始构造固有的顺序性质,据我们所知,使得现有并行算法无法实现。本文提出了高度并行且工作高效的度量跳表构造算法。在恒定扩展率的假设下,我们的方法实现了期望工作量为$O(n \log n)$且高概率下为多对数级别的跨度。我们的设计基于新颖的算法洞见,改进了顺序过程,使得能够采用分治策略在保持效率的同时促进并行性。利用我们的算法,我们还能为以最近邻为构建模块的相关应用(包括双色最近点对(BCP)、基于密度的聚类和$k$-最近邻图构建等)提供改进的界限。据我们所知,其中许多结果代表了仅依赖恒定扩展率假设即可同时实现工作高效和多对数跨度的首批解决方案。

0
下载
关闭预览

相关内容

连续表示方法、理论与应用:综述与前瞻
专知会员服务
23+阅读 · 2025年5月28日
NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型
专知会员服务
26+阅读 · 2021年12月5日
【资源】图深度学习文献列表
专知
42+阅读 · 2019年11月6日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
连续表示方法、理论与应用:综述与前瞻
专知会员服务
23+阅读 · 2025年5月28日
NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型
专知会员服务
26+阅读 · 2021年12月5日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员