Engineering Compressed Matrix Multiplication with the Fast Walsh-Hadamard Transform - 专知论文

会员服务 ·

0

算法 · 变换 · 矩阵乘法 · FFT · 稀疏 ·

Engineering Compressed Matrix Multiplication with the Fast Walsh-Hadamard Transform

翻译：基于快速沃尔什-哈达玛变换的压缩矩阵乘法工程实现

Joel Andersson,Matti Karppa

from arxiv, 23 pages

We present an implementation of Pagh's compressed matrix multiplication algorithm, a randomized algorithm that constructs sketches of matrices to compute an unbiased estimate of their product. By leveraging fast polynomial multiplication via the FFT, the algorithm achieves high performance when the product matrix is sparse or contains only a small number of entries with magnitudes significantly larger than the rest. We show empirically that the algorithm is practical and can outperform state-of-the-art DGEMM implementations when the product matrix has few nonzero entries or is otherwise dominated by a small subset of elements with large magnitude. As a minor theoretical contribution, we replace the FFT with the Fast Walsh-Hadamard Transform (FWHT) in sketched multiplication, preserving all correctness and variance guarantees of the original algorithm. Experiments with our carefully engineered multithreaded CPU implementation for dense double-precision matrices on 64-core CPU nodes across a range of synthetic benchmarks, exhibiting variable sparsity patterns, show that the FWHT variant is up to 4 times faster than the FFT-based version. Under favorable sparsity and magnitude patterns in the product matrix, our FWHT-based implementation achieves a speedup of up to 40 over DGEMM from Intel MKL, with low probability of error in the estimates. Our implementation is released as free software and comes with NumPy-compatible Python bindings.

翻译：本文实现了Pagh的压缩矩阵乘法算法，这是一种通过构建矩阵草图来无偏估计其乘积的随机算法。该算法借助基于FFT的快速多项式乘法，在乘积矩阵稀疏或仅包含少量幅值显著大于其他元素的条目时能够实现高性能。实验表明，当乘积矩阵非零元稀少或主要由幅值较大的少量元素主导时，该算法具有实用性，且能超越当前最先进的DGEMM实现。作为一项次要的理论贡献，我们在草图乘法中用快速沃尔什-哈达玛变换（FWHT）替代了FFT，同时完全保留了原算法的正确性与方差保证。我们在64核CPU节点上针对具有不同稀疏模式的合成基准测试，对稠密双精度矩阵进行了精心设计的多线程CPU实现实验。结果表明，FWHT变体比基于FFT的版本快达4倍。当乘积矩阵具有理想的稀疏性与幅值分布模式时，我们基于FWHT的实现相比Intel MKL的DGEMM可获得最高40倍的加速比，且估计误差概率较低。本实现已作为自由软件发布，并提供与NumPy兼容的Python接口。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【NeurIPS2023】矩阵压缩通过随机低秩和低精度分解

【NeurIPS2023】矩阵压缩通过随机低秩和低精度分解

专知会员服务

31+阅读 · 2023年10月22日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

不可错过！哈佛大学《高级算法课程》课件与视频放出！CS 224: Advanced Algorithms

不可错过！哈佛大学《高级算法课程》课件与视频放出！CS 224: Advanced Algorithms

专知会员服务

35+阅读 · 2022年1月23日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

【ICML2021】随机矩阵理论与机器学习，255页pdf

专知会员服务

121+阅读 · 2021年7月24日

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

专知会员服务

115+阅读 · 2021年3月3日

2840页博士论文！《矩阵理论:优化、集中和算法》，德州大学奥斯汀Zhao Song

2840页博士论文！《矩阵理论:优化、集中和算法》，德州大学奥斯汀Zhao Song

专知会员服务

49+阅读 · 2021年1月25日

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

专知会员服务

25+阅读 · 2019年12月19日

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

量子位

17+阅读 · 2019年12月2日

斯坦福开放新书《应用线性代数导论：向量、矩阵和最小二乘法》473页pdf，带你入门线代

斯坦福开放新书《应用线性代数导论：向量、矩阵和最小二乘法》473页pdf，带你入门线代

专知

37+阅读 · 2019年11月30日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

33页深度学习矩阵运算基础教程（附全文下载）

33页深度学习矩阵运算基础教程（附全文下载）

专知

27+阅读 · 2019年1月1日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

机器学习研究会

18+阅读 · 2018年2月12日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

高维积分波动率矩阵的估计及其在资产投资中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

M-矩阵（张量）最小特征值估计及其相关问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构矩阵计算的扰动理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

矩阵分解问题的优化算法与理论

国家自然科学基金

8+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知在电磁场积分方程快速计算中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Complex to Rational Fast Matrix Multiplication

Arxiv

0+阅读 · 2月13日

Exploiting the Structure in Tensor Decompositions for Matrix Multiplication

Arxiv

0+阅读 · 2月11日

The Structural Complexity of Matrix-Vector Multiplication

Arxiv

0+阅读 · 2月9日

Reducing the Complexity of Matrix Multiplication to $O(N^2log_2N)$ by an Asymptotically Optimal Quantum Algorithm

Arxiv

0+阅读 · 2月5日

Improved Sparse Recovery for Approximate Matrix Multiplication

Arxiv

0+阅读 · 2月4日

Fast Sparse Matrix Permutation for Mesh-Based Direct Solvers

Arxiv

0+阅读 · 1月31日

Floating Point Compression of Hierarchical Matrix Formats and its Impact on Matrix-Vector Multiplication

Arxiv

0+阅读 · 1月28日

Quantum matrix arithmetics with Hamiltonian evolution

Arxiv

0+阅读 · 1月22日

A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication

Arxiv

0+阅读 · 1月14日

Multivariate Polynomial Codes for Efficient Matrix Chain Multiplication in Distributed Systems

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

0+阅读 · 21分钟前

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

0+阅读 · 8分钟前

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

0+阅读 · 24分钟前

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

0+阅读 · 26分钟前

《为战备赋能：从美国海军250年历史中汲取经验》2026年150页书籍

《为战备赋能：从美国海军250年历史中汲取经验》2026年150页书籍

专知会员服务

0+阅读 · 36分钟前

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

3+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

3+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

8+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

7+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

9+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

12+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

10+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

11+阅读 · 6月13日

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

10+阅读 · 6月12日

相关VIP内容

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【NeurIPS2023】矩阵压缩通过随机低秩和低精度分解

【NeurIPS2023】矩阵压缩通过随机低秩和低精度分解

专知会员服务

31+阅读 · 2023年10月22日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

不可错过！哈佛大学《高级算法课程》课件与视频放出！CS 224: Advanced Algorithms

不可错过！哈佛大学《高级算法课程》课件与视频放出！CS 224: Advanced Algorithms

专知会员服务

35+阅读 · 2022年1月23日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

【ICML2021】随机矩阵理论与机器学习，255页pdf

专知会员服务

121+阅读 · 2021年7月24日

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

专知会员服务

115+阅读 · 2021年3月3日

2840页博士论文！《矩阵理论:优化、集中和算法》，德州大学奥斯汀Zhao Song

2840页博士论文！《矩阵理论:优化、集中和算法》，德州大学奥斯汀Zhao Song

专知会员服务

49+阅读 · 2021年1月25日

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

专知会员服务

25+阅读 · 2019年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

《离线语言支持系统：面向空战战术决策》

相关资讯

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

量子位

17+阅读 · 2019年12月2日

斯坦福开放新书《应用线性代数导论：向量、矩阵和最小二乘法》473页pdf，带你入门线代

斯坦福开放新书《应用线性代数导论：向量、矩阵和最小二乘法》473页pdf，带你入门线代

专知

37+阅读 · 2019年11月30日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

33页深度学习矩阵运算基础教程（附全文下载）

33页深度学习矩阵运算基础教程（附全文下载）

专知

27+阅读 · 2019年1月1日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

机器学习研究会

18+阅读 · 2018年2月12日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

相关论文

Complex to Rational Fast Matrix Multiplication

Arxiv

0+阅读 · 2月13日

Exploiting the Structure in Tensor Decompositions for Matrix Multiplication

Arxiv

0+阅读 · 2月11日

The Structural Complexity of Matrix-Vector Multiplication

Arxiv

0+阅读 · 2月9日

Reducing the Complexity of Matrix Multiplication to $O(N^2log_2N)$ by an Asymptotically Optimal Quantum Algorithm

Arxiv

0+阅读 · 2月5日

Improved Sparse Recovery for Approximate Matrix Multiplication

Arxiv

0+阅读 · 2月4日

Fast Sparse Matrix Permutation for Mesh-Based Direct Solvers

Arxiv

0+阅读 · 1月31日

Floating Point Compression of Hierarchical Matrix Formats and its Impact on Matrix-Vector Multiplication

Arxiv

0+阅读 · 1月28日

Quantum matrix arithmetics with Hamiltonian evolution

Arxiv

0+阅读 · 1月22日

A Machine Learning Approach Towards Runtime Optimisation of Matrix Multiplication

Arxiv

0+阅读 · 1月14日

Multivariate Polynomial Codes for Efficient Matrix Chain Multiplication in Distributed Systems

Arxiv

0+阅读 · 1月13日

相关基金

高维积分波动率矩阵的估计及其在资产投资中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

M-矩阵（张量）最小特征值估计及其相关问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构矩阵计算的扰动理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

矩阵分解问题的优化算法与理论

国家自然科学基金

8+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知在电磁场积分方程快速计算中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员