Locality-sensitive hashing (LSH) is a well-known solution for approximate nearest neighbor (ANN) search with theoretical guarantees. Traditional LSH-based methods mainly focus on improving the efficiency and accuracy of query phase by designing different query strategies, but pay little attention to improving the efficiency of the indexing phase. They typically fine-tune existing data-oriented partitioning trees to index data points and support their query strategies. However, their strategy to directly partition the multidimensional space is time-consuming, and performance degrades as the space dimensionality increases. In this paper, we design an encoding-based tree called Dynamic Encoding Tree (DE-Tree) to improve the indexing efficiency and support efficient range queries. Based on DE-Tree, we propose a novel LSH scheme called DET-LSH. DET-LSH adopts a novel query strategy, which performs range queries in multiple independent index DE-Trees to reduce the probability of missing exact NN points. Extensive experiments demonstrate that while achieving best query accuracy, DET-LSH achieves up to 6x speedup in indexing time and 2x speedup in query time over the state-of-the-art LSH-based methods. In addition, to further improve the performance of DET-LSH, we propose PDET-LSH, an in-memory method adopting the parallelization opportunities provided by multicore CPUs. PDET-LSH exhibits considerable advantages in indexing and query efficiency, especially on large-scale datasets. Extensive experiments show that, while achieving the same query accuracy as DET-LSH, PDET-LSH offers up to 40x speedup in indexing time and 62x speedup in query answering time over the state-of-the-art LSH-based methods. Our theoretical analysis demonstrates that DET-LSH and PDET-LSH offer probabilistic guarantees on query answering accuracy. This paper was published in TKDE.


翻译:局部敏感哈希(LSH)是一种具有理论保证的近似最近邻(ANN)搜索的经典方法。传统基于LSH的方法主要通过设计不同的查询策略来提升查询阶段效率与精度,但极少关注索引阶段的效率优化。这些方法通常微调现有数据导向的分区树以索引数据点并支撑其查询策略。然而,这种直接对多维空间进行划分的策略耗时严重,且性能随空间维度增加而退化。本文设计了一种基于编码的树结构——动态编码树(DE-Tree),以提升索引效率并支持高效范围查询。基于DE-Tree,我们提出了一种新型LSH方案DET-LSH。DET-LSH采用创新查询策略,在多个独立索引DE-Tree中执行范围查询,从而降低遗漏精确最近邻点的概率。大量实验表明:在实现最佳查询精度的同时,DET-LSH的索引时间相较于现有最优LSH方法加速高达6倍,查询时间加速高达2倍。此外,为进一步提升DET-LSH性能,我们提出PDET-LSH——一种利用多核CPU并行化机会的内存方法。PDET-LSH在索引与查询效率上展现出显著优势,尤其适用于大规模数据集。大量实验表明:在保持与DET-LSH相同查询精度的前提下,PDET-LSH的索引时间相较于现有最优LSH方法加速高达40倍,查询响应时间加速高达62倍。理论分析证明DET-LSH和PDET-LSH对查询精度提供概率性保证。本文发表于TKDE。

0
下载
关闭预览

相关内容

局部敏感哈希算法
专知会员服务
19+阅读 · 2021年5月16日
专知会员服务
50+阅读 · 2020年6月14日
Github项目推荐 | DeepHash - 深度学习哈希开源库
AI研习社
27+阅读 · 2019年4月30日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员