CS-PQ: Cache-Friendly SIMD Product Quantization for Large-Scale ANNS Index Construction - 专知论文

会员服务 ·

0

构建 · 计算机科学 · 中央处理器 (CPU) · 设计 · 集成 ·

CS-PQ: Cache-Friendly SIMD Product Quantization for Large-Scale ANNS Index Construction

翻译：CS-PQ：面向大规模ANNS索引构建的缓存友好型SIMD乘积量化方法

Y. T. Ma,K. C. Huang,X. K. Jiang,M. L. Wang,X. Yao,R. H. Chen,G. Zhang,Z. L. Shao

from arxiv, 14 pages, 11 figures, 1 table

Product Quantization (PQ) construction is deeply integrated into vector index construction for Approximate Nearest Neighbor Search (ANNS). The rapid growth in vector dimensionality and volume has significantly increased the computational cost of PQ. Existing GPU-based PQ accelerations are ill-suited for PQ construction due to its "one-to-one" execution pattern (one compute, one data load, i.e., data transfer overhead dominates). Although CPU-based solutions are prevalent, they are essentially general-purpose designs that fail to capture the intrinsic characteristics of PQ construction.In this paper, we propose CS-PQ, a Cache-friendly, SIMD-optimized PQ framework based on modern CPUs. CS-PQ introduces a vector-oriented SIMD paradigm that decouples quantization granularity from SIMD width by vectorizing across PQ centroids rather than subvector dimensions. It further restructures the execution pipeline to improve cache locality and reformulates PQ computation to eliminate redundant operations while preserving correctness. Experiments on large-scale datasets show that CS-PQ achieves up to 10.7 times speedup over state-of-the-art CPU-based PQ implementations without sacrificing ANNS accuracy.

翻译：乘积量化（PQ）的构建过程深度集成于近似最近邻搜索（ANNS）的向量索引构建中。随着向量维度与数据规模的急剧增长，PQ的计算成本显著增加。现有基于GPU的PQ加速方法因其"一对一"执行模式（即单次计算对应单次数据加载，数据传输开销占主导）而不适用于PQ构建。尽管基于CPU的解决方案较为普遍，但这些本质上属于通用设计，未能捕捉PQ构建的内在特征。本文提出CS-PQ——一种基于现代CPU的缓存友好型SIMD优化PQ框架。CS-PQ引入面向向量的SIMD计算范式，通过跨PQ质心而非子向量维度进行向量化，从而将量化粒度与SIMD宽度解耦。该方法进一步重构执行流水线以提升缓存局部性，并重新设计PQ计算流程，在保证正确性的同时消除冗余操作。在大规模数据集上的实验表明，CS-PQ在不牺牲ANNS精度的前提下，相较于现有最优的CPU端PQ实现可取得最高10.7倍的加速比。

0

相关内容

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

17+阅读 · 2025年7月3日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

102+阅读 · 2022年11月24日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

量子优化算法综述

专知会员服务

37+阅读 · 2021年9月12日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

和积网络综述论文，Sum-product networks: A survey，24页pdf

和积网络综述论文，Sum-product networks: A survey，24页pdf

专知会员服务

24+阅读 · 2020年4月3日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

pytorch中六种常用的向量相似度评估方法

pytorch中六种常用的向量相似度评估方法

极市平台

22+阅读 · 2021年12月9日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

PyTorch实现多种深度强化学习算法

PyTorch实现多种深度强化学习算法

专知

36+阅读 · 2019年1月15日

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

机器学习算法与Python学习

10+阅读 · 2018年9月8日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于特定拓扑结构的交通分配算法分析与设计方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

Ascend-RaBitQ: Heterogeneous NPU-CPU Acceleration of Billion-Scale Similarity Search with 1-bit Quantization

Arxiv

0+阅读 · 6月15日

NSVQ: Mitigating Codebook Collapse by Stabilizing Encoder Drift in Vector Quantization

Arxiv

0+阅读 · 6月9日

SoK: Post-Quantum Cryptography (PQC) Implementation in Software Systems

Arxiv

0+阅读 · 6月3日

MASQ: Accelerating Masked Diffusion via Stage-Wise Multi-Precision Quantization

Arxiv

0+阅读 · 5月22日

CB-SpMV:A Data Aggregating and Balance Algorithm for Cache-Friendly Block-Based SpMV on GPUs

Arxiv

0+阅读 · 5月18日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月17日

QuPort: Topology-, Port-, and Congestion-Aware Compilation for Modular Multi-QPU Quantum Systems

Arxiv

0+阅读 · 5月12日

ScaleGANN: Accelerate Large-Scale ANN Indexing by Cost-effective Cloud GPUs

Arxiv

0+阅读 · 5月11日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月10日

FASQ: Flexible Accelerated Subspace Quantization for Calibration-Free LLM Compression

Arxiv

0+阅读 · 4月22日

VIP会员

文章信息

相关主题

计算机科学

中央处理器 (CPU)

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

2+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

17+阅读 · 2025年7月3日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

102+阅读 · 2022年11月24日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

量子优化算法综述

专知会员服务

37+阅读 · 2021年9月12日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

和积网络综述论文，Sum-product networks: A survey，24页pdf

和积网络综述论文，Sum-product networks: A survey，24页pdf

专知会员服务

24+阅读 · 2020年4月3日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

pytorch中六种常用的向量相似度评估方法

pytorch中六种常用的向量相似度评估方法

极市平台

22+阅读 · 2021年12月9日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

PyTorch实现多种深度强化学习算法

PyTorch实现多种深度强化学习算法

专知

36+阅读 · 2019年1月15日

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

机器学习算法与Python学习

10+阅读 · 2018年9月8日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Ascend-RaBitQ: Heterogeneous NPU-CPU Acceleration of Billion-Scale Similarity Search with 1-bit Quantization

Arxiv

0+阅读 · 6月15日

NSVQ: Mitigating Codebook Collapse by Stabilizing Encoder Drift in Vector Quantization

Arxiv

0+阅读 · 6月9日

SoK: Post-Quantum Cryptography (PQC) Implementation in Software Systems

Arxiv

0+阅读 · 6月3日

MASQ: Accelerating Masked Diffusion via Stage-Wise Multi-Precision Quantization

Arxiv

0+阅读 · 5月22日

CB-SpMV:A Data Aggregating and Balance Algorithm for Cache-Friendly Block-Based SpMV on GPUs

Arxiv

0+阅读 · 5月18日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月17日

QuPort: Topology-, Port-, and Congestion-Aware Compilation for Modular Multi-QPU Quantum Systems

Arxiv

0+阅读 · 5月12日

ScaleGANN: Accelerate Large-Scale ANN Indexing by Cost-effective Cloud GPUs

Arxiv

0+阅读 · 5月11日

QuIVer: Rethinking ANN Graph Topology via Training-Free Binary Quantization

Arxiv

0+阅读 · 5月10日

FASQ: Flexible Accelerated Subspace Quantization for Calibration-Free LLM Compression

Arxiv

0+阅读 · 4月22日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于特定拓扑结构的交通分配算法分析与设计方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员