The Clustering Strikes Back: Building Cost-Effective and High-Performance ANNS at Scale with Helmsman - 专知论文

会员服务 ·

0

构建 · 系统 · 内存 · 剪枝 · 搜索 ·

The Clustering Strikes Back: Building Cost-Effective and High-Performance ANNS at Scale with Helmsman

翻译：聚类回归：Helmsman——构建高性价比高性能的大规模ANNS系统

Yuchen Huang,Baiteng Ma,Yiping Sun,Yang Shi,Xiao Chen,Xiaocheng Zhong,Zhiyong Wang,Yao Hu,Erci Xu,Chuliang Weng

from arxiv, Accepted by OSDI'26

RedNote (a.k.a., Xiaohongshu, a global-scale social network platform) widely adopts approximate nearest neighbor search (ANNS) to power its search, recommendation, and advertising services. Due to the demanding Service Level Agreements (SLAs), we have to rely on in-memory graph-based ANNS (i.e., HNSW) to provide high throughput and low latency. However, the ever-growing user base and content volume have led to an explosive increase in memory footprint and consequently huge CapEx and OpEx. After exploring various alternatives, we find that building a clustering-based ANNS on top of all-flash servers can be promising. Yet, we still experience severe overheads from the kernel I/O stack, a fixed pruning strategy, and slow index construction. We present HELMSMAN, a high-performance and cost-effective clustering-based ANNS system, which combines an ANNS-oriented userspace storage stack, a leveling-learned pruning module, and GPU-accelerated pipelines of construction. HELMSMAN saves over 90% of hardware costs and enables billion-scale index (re)builds within hours. In the current production deployment, operating stably for several months, 40 machines now host ANNS workloads that previously required about 35,000 cores and 0.35 PB DRAM.

翻译：RedNote（即小红书，一个全球规模的社交网络平台）广泛采用近似最近邻搜索（ANNS）来支撑其搜索、推荐及广告业务。由于严格的服务水平协议（SLA），我们不得不依赖基于内存的图索引ANNS（即HNSW），以满足高吞吐量和低延迟的需求。然而，持续增长的用户基数与内容规模导致内存占用急剧膨胀，从而带来巨大的资本与运营支出。在探索多种替代方案后，我们发现基于全闪存服务器构建聚类式ANNS颇具潜力。尽管如此，内核I/O栈的沉重开销、固定的剪枝策略以及缓慢的索引构建仍带来严峻挑战。为此，我们提出HELMSMAN——一个高性能、高性价比的聚类式ANNS系统，它融合了面向ANNS的用户态存储栈、渐进式学习剪枝模块以及GPU加速的流水线构建流程。HELMSMAN节省了超过90%的硬件成本，并能在数小时内完成十亿级索引的（重）构建。在当前生产环境中已稳定运行数月，仅需40台机器即可承载此前需约35,000个处理核心与0.35 PB内存的ANNS工作负载。

0

相关内容

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

专知会员服务

32+阅读 · 2022年11月28日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

专知会员服务

18+阅读 · 2022年3月28日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

【NeurIPS2021】上亿量级规模高效向量近似最近邻搜索系统 SPANN

【NeurIPS2021】上亿量级规模高效向量近似最近邻搜索系统 SPANN

专知会员服务

11+阅读 · 2021年11月17日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

生成性对抗网络:理论模型、评估指标和最近发展的概述，Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent Developments

生成性对抗网络:理论模型、评估指标和最近发展的概述，Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent Developments

专知会员服务

42+阅读 · 2020年5月30日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

专知会员服务

105+阅读 · 2020年2月17日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

AINLP

12+阅读 · 2021年1月13日

最全推荐系统Embedding召回算法总结

最全推荐系统Embedding召回算法总结

凡人机器学习

30+阅读 · 2020年7月5日

浅析Faiss在推荐系统中的应用及原理

浅析Faiss在推荐系统中的应用及原理

凡人机器学习

11+阅读 · 2020年5月5日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

极市平台

44+阅读 · 2019年5月31日

AmpliGraph：知识图谱表示学习工具包

AmpliGraph：知识图谱表示学习工具包

专知

40+阅读 · 2019年4月6日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

U-HNSW: An Efficient Graph-based Solution to ANNS Under Universal Lp Metrics

Arxiv

0+阅读 · 6月10日

Projection and Quantisation: A Unifying View of Learning to Hash, from Random Projections to the RAG Era

Arxiv

0+阅读 · 6月7日

AlayaLaser: Efficient Index Layout and Search Strategy for Large-scale High-dimensional Vector Similarity Search

Arxiv

0+阅读 · 5月27日

Leveraging I/O Stalls for Efficient Scheduling in ANNS

Arxiv

0+阅读 · 5月19日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月17日

AlayaLaser: Efficient Index Layout and Search Strategy for Large-scale High-dimensional Vector Similarity Search

Arxiv

0+阅读 · 5月14日

STARS: Spike Tail-Aware Relational Synthesis for ANN-to-SNN Data-Free Knowledge Distillation

Arxiv

0+阅读 · 5月12日

CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs

Arxiv

0+阅读 · 5月11日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月10日

U-HNSW: An Efficient Graph-based Solution to ANNS Under Universal Lp Metrics

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

0+阅读 · 3分钟前

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

0+阅读 · 7分钟前

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

1+阅读 · 10分钟前

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

相关VIP内容

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

专知会员服务

32+阅读 · 2022年11月28日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

专知会员服务

18+阅读 · 2022年3月28日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

【NeurIPS2021】上亿量级规模高效向量近似最近邻搜索系统 SPANN

【NeurIPS2021】上亿量级规模高效向量近似最近邻搜索系统 SPANN

专知会员服务

11+阅读 · 2021年11月17日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

生成性对抗网络:理论模型、评估指标和最近发展的概述，Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent Developments

生成性对抗网络:理论模型、评估指标和最近发展的概述，Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent Developments

专知会员服务

42+阅读 · 2020年5月30日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

专知会员服务

105+阅读 · 2020年2月17日

热门VIP内容

开通专知VIP会员享更多权益服务

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

AINLP

12+阅读 · 2021年1月13日

最全推荐系统Embedding召回算法总结

最全推荐系统Embedding召回算法总结

凡人机器学习

30+阅读 · 2020年7月5日

浅析Faiss在推荐系统中的应用及原理

浅析Faiss在推荐系统中的应用及原理

凡人机器学习

11+阅读 · 2020年5月5日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

极市平台

44+阅读 · 2019年5月31日

AmpliGraph：知识图谱表示学习工具包

AmpliGraph：知识图谱表示学习工具包

专知

40+阅读 · 2019年4月6日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

相关论文

U-HNSW: An Efficient Graph-based Solution to ANNS Under Universal Lp Metrics

Arxiv

0+阅读 · 6月10日

Projection and Quantisation: A Unifying View of Learning to Hash, from Random Projections to the RAG Era

Arxiv

0+阅读 · 6月7日

AlayaLaser: Efficient Index Layout and Search Strategy for Large-scale High-dimensional Vector Similarity Search

Arxiv

0+阅读 · 5月27日

Leveraging I/O Stalls for Efficient Scheduling in ANNS

Arxiv

0+阅读 · 5月19日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月17日

AlayaLaser: Efficient Index Layout and Search Strategy for Large-scale High-dimensional Vector Similarity Search

Arxiv

0+阅读 · 5月14日

STARS: Spike Tail-Aware Relational Synthesis for ANN-to-SNN Data-Free Knowledge Distillation

Arxiv

0+阅读 · 5月12日

CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs

Arxiv

0+阅读 · 5月11日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月10日

U-HNSW: An Efficient Graph-based Solution to ANNS Under Universal Lp Metrics

Arxiv

0+阅读 · 5月6日

相关基金

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员