We present SuperKMeans: a k-means variant designed for clustering collections of high-dimensional vector embeddings. SuperKMeans' clustering is up to 7x faster than FAISS and Scikit-Learn on modern CPUs and up to 4x faster than cuVS on GPUs (Figure 1), while maintaining the quality of the resulting centroids for vector similarity search tasks. SuperKMeans acceleration comes from reducing data-access and compute overhead by reliably and efficiently pruning dimensions that are not needed to assign a vector to a centroid. Furthermore, we present Early Termination by Recall, a novel mechanism that early-terminates k-means when the quality of the centroids for retrieval tasks stops improving across iterations. In practice, this further reduces runtimes without compromising retrieval quality. We open-source our implementation at https://github.com/cwida/SuperKMeans


翻译:我们提出SuperKMeans:一种专为高维向量嵌入聚类设计的K-Means变体。在保持向量相似性搜索任务中质心质量的前提下,SuperKMeans的聚类速度在现代CPU上比FAISS和Scikit-Learn快7倍,在GPU上比cuVS快4倍(图1)。SuperKMeans的加速源于通过高效可靠地剪枝对向量质心分配不必要的维度,从而降低数据访问和计算开销。此外,我们提出基于召回率的早停机制(Early Termination by Recall),该机制在检索任务中质心质量停止随迭代提升时提前终止K-Means运行。实践中,该方法可在不损害检索质量的前提下进一步减少运行时间。我们已在https://github.com/cwida/SuperKMeans开源实现代码。

0
下载
关闭预览

相关内容

【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
【CIKM2023教程】深度聚类算法的应用,94页ppt
专知会员服务
53+阅读 · 2023年11月8日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月21日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
0+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关VIP内容
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
【CIKM2023教程】深度聚类算法的应用,94页ppt
专知会员服务
53+阅读 · 2023年11月8日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员