Although Approximate Nearest Neighbor (ANN) search has been extensively studied, large-k ANN queries that aim to retrieve a large number of nearest neighbors remain underexplored, despite their numerous real-world applications. Existing ANN methods face significant performance degradation for such queries. In this work, we first investigate the reasons for the performance degradation of quantization-based ANN indexes: (1) the inefficiency of existing top-k collectors, which incurs significant overhead in candidate maintenance, and (2) the reduced pruning effectiveness of quantization methods, which leads to a costly re-ranking process. To address this, we propose a novel bucket-based result collector (BBC) to enhance the efficiency of existing quantization-based ANN indexes for large-k ANN queries. BBC introduces two key components: (1) a bucket-based result buffer that organizes candidates into buckets by their distances to the query. This design reduces ranking costs and improves cache efficiency, enabling high performance maintenance of a candidate superset and a lightweight final selection of top-k results. (2) two re-ranking algorithms tailored for different types of quantization methods, which accelerate their re-ranking process by reducing either the number of candidate objects to be re-ranked or cache misses. Extensive experiments on real-world datasets demonstrate that BBC accelerates existing quantization-based ANN methods by up to 3.8x at recall@k = 0.95 for large-k ANN queries.


翻译:尽管近似最近邻(ANN)搜索已被广泛研究,但旨在检索大量最近邻的大k ANN查询在实际应用中虽屡见不鲜,却仍面临探索不足的困境。现有ANN方法在处理此类查询时会出现显著的性能衰减。本文首先探究了基于量化的ANN索引性能衰减的成因:(1)现有top-k收集器效率低下,导致候选维护开销巨大;(2)量化方法的剪枝有效性降低,引发昂贵的重排序过程。为此,我们提出一种新型基于桶的结果收集器(BBC),以提升现有基于量化的ANN索引在大k ANN查询中的效率。BBC引入两个关键组件:(1)基于桶的结果缓冲区,将候选对象按与查询的距离分桶组织。该设计降低排序成本并提升缓存效率,从而支持高性能维护候选超集,并实现轻量级的最终top-k结果选择;(2)两种针对不同量化方法定制的重排序算法,通过减少待重排序候选对象数量或缓存缺失次数来加速重排序过程。在真实数据集上的大量实验表明,对于大k ANN查询,BBC在recall@k=0.95指标下可将现有基于量化的ANN方法加速高达3.8倍。

0
下载
关闭预览

相关内容

英国广播公司(英文简称:BBC, 英文名称;British Broadcasting Corporation)成立于1922年,总部位于英国伦敦,前身为British Broadcasting Company,是英国最大的新闻广播机构,也是世界最大的新闻广播机构之一。 BBC于1936年开始提供电视服务,是世界上第一家电视台。1967年,BBC首次采用彩色信号播报温布尔登网球公开赛,从而开启了彩色电视时代。 [1] 今天BBC除了是一家在全球拥有高知名度和广泛信誉的媒体,还经营着其他业务,包括BBC Proms音乐会、英语教学、交响乐团等
专知会员服务
18+阅读 · 2020年10月18日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
专知会员服务
18+阅读 · 2020年10月18日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员