Parallel Metric Skip Lists and Nearest Neighbor Search - 专知论文

会员服务 ·

0

最近邻 · 近邻 · 并行 · 度量 · 算法 ·

Parallel Metric Skip Lists and Nearest Neighbor Search

翻译：并行度量跳表与最近邻搜索

Xiangyun Ding,Rohin Garg,Yan Gu,Yihan Sun

The metric skip-list is a data structure designed for efficient nearest and $k$-nearest neighbor search in metric spaces. For many real-world datasets with reasonable distributions - specifically, those with a constant expansion rate - it supports $\tilde{O}(n)$ construction time and $O(k\log n)$ query time, where $n$ is the input size and $k$ is the number of nearest neighbors in queries. Notably, unlike alternative approaches, it does not require a bounded aspect ratio, making it more flexible for input data distributions. However, the inherently sequential nature of its original construction has, to our knowledge, precluded any existing parallel algorithm. In this paper, we present highly parallel and work-efficient algorithms for constructing metric skip lists. Under the assumption of a constant expansion rate, our approach achieves an expected work of $O(n \log n)$ and a polylogarithmic span with high probability. Our design is based on novel algorithmic insights that improves the sequential procedure, enabling a divide-and-conquer strategy that facilitates parallelism while maintaining efficiency. With our algorithms, we can also support improved bounds for relevant applications using nearest neighbor as building blocks, including bichromatic closest pair (BCP), density-based clustering, and $k$-NN graph construction, among others. To our knowledge, many of these results represent the first solutions to achieve both work efficiency and polylogarithmic span, relying solely on the assumption of a constant expansion rate.

翻译：度量跳表是一种专为度量空间中高效最近邻和$k$-最近邻搜索而设计的数据结构。对于许多具有合理分布（特别是具有恒定扩展率）的真实世界数据集，它支持$\tilde{O}(n)$构建时间和$O(k\log n)$查询时间，其中$n$为输入规模，$k$为查询中最近邻的数量。值得注意的是，与其他方法不同，它不需要有界纵横比，从而对输入数据分布更具灵活性。然而，其原始构造固有的顺序性质，据我们所知，使得现有并行算法无法实现。本文提出了高度并行且工作高效的度量跳表构造算法。在恒定扩展率的假设下，我们的方法实现了期望工作量为$O(n \log n)$且高概率下为多对数级别的跨度。我们的设计基于新颖的算法洞见，改进了顺序过程，使得能够采用分治策略在保持效率的同时促进并行性。利用我们的算法，我们还能为以最近邻为构建模块的相关应用（包括双色最近点对（BCP）、基于密度的聚类和$k$-最近邻图构建等）提供改进的界限。据我们所知，其中许多结果代表了仅依赖恒定扩展率假设即可同时实现工作高效和多对数跨度的首批解决方案。

0

相关内容

最近邻

连续表示方法、理论与应用：综述与前瞻

连续表示方法、理论与应用：综述与前瞻

专知会员服务

23+阅读 · 2025年5月28日

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

专知会员服务

22+阅读 · 2024年5月8日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

专知会员服务

26+阅读 · 2021年12月5日

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

专知会员服务

58+阅读 · 2021年11月3日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【资源】图深度学习文献列表

【资源】图深度学习文献列表

专知

42+阅读 · 2019年11月6日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

专知

20+阅读 · 2018年4月5日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

量质融合的移动轨迹相似性查询技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于结构特性的数字地图多尺度表达研究

国家自然科学基金

1+阅读 · 2014年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

共形几何代数框架下时空拓扑关系的统一表达与计算方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Skiplists with Foresight: Skipping Cache Misses

Arxiv

0+阅读 · 6月11日

Discovering Data Structures: Nearest Neighbor Search and Beyond

Arxiv

0+阅读 · 6月6日

A Study of Parallel Continuous Local Search

Arxiv

0+阅读 · 6月4日

Distributional Approximate Nearest Neighbour Search for Uncertainty-Aware Retrieval

Arxiv

0+阅读 · 6月3日

Puffin-Backed Vector Indexes: Attaching Approximate Nearest Neighbor Indexes to Apache Iceberg Snapshots for Compute-Disaggregated Query Engines

Arxiv

0+阅读 · 6月2日

HRNN: A Hybrid Graph Index for Approximate Reverse k-Nearest Neighbor Search on High-Dimensional Vectors

Arxiv

0+阅读 · 6月2日

Statistical Embeddings for Similarity, Retrieval, and Interpretable Alignment of Numeric Tabular Datasets

Arxiv

0+阅读 · 5月28日

Random-Access Ranked Retrieval and Similarity Search

Arxiv

0+阅读 · 5月25日

Online Monotone Metric Embeddings

Arxiv

0+阅读 · 5月12日

Low-Latency Out-of-Core ANN Search in High-Dimensional Space

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

3+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

连续表示方法、理论与应用：综述与前瞻

连续表示方法、理论与应用：综述与前瞻

专知会员服务

23+阅读 · 2025年5月28日

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

【CMU博士论文】利用结构和上下文进行语言邻近表示学习

专知会员服务

22+阅读 · 2024年5月8日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

专知会员服务

26+阅读 · 2021年12月5日

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

斯坦福大学Jure团队提出《大规模可扩展知识图谱多跳推理框架SMORE》，实现单机运行8千万实体3亿级知识图谱推理

专知会员服务

58+阅读 · 2021年11月3日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【资源】图深度学习文献列表

【资源】图深度学习文献列表

专知

42+阅读 · 2019年11月6日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

专知

20+阅读 · 2018年4月5日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Skiplists with Foresight: Skipping Cache Misses

Arxiv

0+阅读 · 6月11日

Discovering Data Structures: Nearest Neighbor Search and Beyond

Arxiv

0+阅读 · 6月6日

A Study of Parallel Continuous Local Search

Arxiv

0+阅读 · 6月4日

Distributional Approximate Nearest Neighbour Search for Uncertainty-Aware Retrieval

Arxiv

0+阅读 · 6月3日

Puffin-Backed Vector Indexes: Attaching Approximate Nearest Neighbor Indexes to Apache Iceberg Snapshots for Compute-Disaggregated Query Engines

Arxiv

0+阅读 · 6月2日

HRNN: A Hybrid Graph Index for Approximate Reverse k-Nearest Neighbor Search on High-Dimensional Vectors

Arxiv

0+阅读 · 6月2日

Statistical Embeddings for Similarity, Retrieval, and Interpretable Alignment of Numeric Tabular Datasets

Arxiv

0+阅读 · 5月28日

Random-Access Ranked Retrieval and Similarity Search

Arxiv

0+阅读 · 5月25日

Online Monotone Metric Embeddings

Arxiv

0+阅读 · 5月12日

Low-Latency Out-of-Core ANN Search in High-Dimensional Space

Arxiv

0+阅读 · 5月7日

相关基金

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

量质融合的移动轨迹相似性查询技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于结构特性的数字地图多尺度表达研究

国家自然科学基金

1+阅读 · 2014年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

共形几何代数框架下时空拓扑关系的统一表达与计算方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员