Low-Rank GEMM: Efficient Matrix Multiplication via Low-Rank Approximation with FP8 Acceleration - 专知论文

会员服务 ·

0

低秩 · 近似 · 矩阵乘法 · 低秩近似 · 精度 ·

2025 年 11 月 24 日

Low-Rank GEMM: Efficient Matrix Multiplication via Low-Rank Approximation with FP8 Acceleration

翻译：低秩GEMM：基于低秩近似与FP8加速的高效矩阵乘法

Large matrix multiplication is a cornerstone of modern machine learning workloads, yet traditional approaches suffer from cubic computational complexity (e.g., $\mathcal{O}(n^3)$ for a matrix of size $n\times n$). We present Low-Rank GEMM, a novel approach that leverages low-rank matrix approximations to achieve sub-quadratic complexity while maintaining hardware-accelerated performance through FP8 precision and intelligent kernel selection. On a NVIDIA RTX 4090, our implementation achieves up to 378 TFLOPS on matrices up to $N=20480$, providing 75\% memory savings and $7.8\times$ speedup over PyTorch FP32 for large matrices. The system automatically adapts to hardware capabilities, selecting optimal decomposition methods (SVD, randomized SVD) and precision levels based on matrix characteristics and available accelerators. Comprehensive benchmarking on NVIDIA RTX 4090 demonstrates that Low-Rank GEMM becomes the fastest approach for matrices $N\geq10240$, surpassing traditional cuBLAS implementations through memory bandwidth optimization rather than computational shortcuts.

翻译：大规模矩阵乘法是现代机器学习工作负载的基石，然而传统方法受限于立方级计算复杂度（例如，对于尺寸为$n\\times n$的矩阵，复杂度为$\\mathcal{O}(n^3)$）。本文提出低秩GEMM，这是一种利用低秩矩阵近似实现亚二次复杂度，同时通过FP8精度与智能内核选择保持硬件加速性能的新方法。在NVIDIA RTX 4090上，我们的实现在尺寸高达$N=20480$的矩阵上实现了最高378 TFLOPS的性能，相比PyTorch FP32在大规模矩阵上节省75%内存并带来$7.8\\times$的加速。该系统能自适应硬件能力，根据矩阵特性与可用加速器选择最优分解方法（SVD、随机化SVD）与精度级别。在NVIDIA RTX 4090上的全面基准测试表明，对于$N\\geq10240$的矩阵，低秩GEMM通过内存带宽优化而非计算捷径，成为超越传统cuBLAS实现的最快方法。

0

相关内容

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

专知会员服务

13+阅读 · 2025年7月28日

UnHiPPO：面向不确定性的状态空间模型初始化方法

UnHiPPO：面向不确定性的状态空间模型初始化方法

专知会员服务

11+阅读 · 2025年6月6日

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

专知会员服务

17+阅读 · 2022年6月10日

NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子

NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子

专知会员服务

17+阅读 · 2021年12月7日

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

专知会员服务

12+阅读 · 2021年10月23日

【NeurIPS 2021】学会学习图拓扑

【NeurIPS 2021】学会学习图拓扑

专知会员服务

25+阅读 · 2021年10月22日

【ICML2021】随机傅立叶特征的量化算法

专知会员服务

25+阅读 · 2021年7月31日

[ICML2021] 伪黎曼流形中的有向图嵌入

专知会员服务

34+阅读 · 2021年6月24日

【ICML2021】基于子图结构的GNN解释模型

专知会员服务

50+阅读 · 2021年6月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

20+阅读 · 2021年3月28日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

数据分析师应该知道的16种回归技术：岭回归

数据分析师应该知道的16种回归技术：岭回归

数萃大数据

15+阅读 · 2018年8月11日

CNN 反向传播算法推导

CNN 反向传播算法推导

统计学习与视觉计算组

30+阅读 · 2017年12月29日

PCA的基本数学原理

PCA的基本数学原理

算法与数学之美

11+阅读 · 2017年8月8日

Musielak-Orlicz-Sobolev 空间中的迹嵌入及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

Yang-Baxter矩阵方程解的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于径向基函数无网格离散的快速多水平算法

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

量子齐次空间上同调的非交换Hodge分解及形变意义

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

27+阅读 · 2023年12月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Graph Anomaly Detection with Graph Neural Networks: Current Status and Challenges

Graph Anomaly Detection with Graph Neural Networks: Current Status and Challenges

Arxiv

22+阅读 · 2022年9月29日

NeuroFluid: Fluid Dynamics Grounding with Particle-Driven Neural Radiance Fields

Arxiv

15+阅读 · 2022年3月3日

Generalized Out-of-Distribution Detection: A Survey

Generalized Out-of-Distribution Detection: A Survey

Arxiv

15+阅读 · 2021年10月21日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

9+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

专知会员服务

13+阅读 · 2025年7月28日

UnHiPPO：面向不确定性的状态空间模型初始化方法

UnHiPPO：面向不确定性的状态空间模型初始化方法

专知会员服务

11+阅读 · 2025年6月6日

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

专知会员服务

17+阅读 · 2022年6月10日

NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子

NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子

专知会员服务

17+阅读 · 2021年12月7日

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

专知会员服务

12+阅读 · 2021年10月23日

【NeurIPS 2021】学会学习图拓扑

【NeurIPS 2021】学会学习图拓扑

专知会员服务

25+阅读 · 2021年10月22日

【ICML2021】随机傅立叶特征的量化算法

专知会员服务

25+阅读 · 2021年7月31日

[ICML2021] 伪黎曼流形中的有向图嵌入

专知会员服务

34+阅读 · 2021年6月24日

【ICML2021】基于子图结构的GNN解释模型

专知会员服务

50+阅读 · 2021年6月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

20+阅读 · 2021年3月28日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

数据分析师应该知道的16种回归技术：岭回归

数据分析师应该知道的16种回归技术：岭回归

数萃大数据

15+阅读 · 2018年8月11日

CNN 反向传播算法推导

CNN 反向传播算法推导

统计学习与视觉计算组

30+阅读 · 2017年12月29日

PCA的基本数学原理

PCA的基本数学原理

算法与数学之美

11+阅读 · 2017年8月8日

相关论文

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

27+阅读 · 2023年12月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Graph Anomaly Detection with Graph Neural Networks: Current Status and Challenges

Graph Anomaly Detection with Graph Neural Networks: Current Status and Challenges

Arxiv

22+阅读 · 2022年9月29日

NeuroFluid: Fluid Dynamics Grounding with Particle-Driven Neural Radiance Fields

Arxiv

15+阅读 · 2022年3月3日

Generalized Out-of-Distribution Detection: A Survey

Generalized Out-of-Distribution Detection: A Survey

Arxiv

15+阅读 · 2021年10月21日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

相关基金

Musielak-Orlicz-Sobolev 空间中的迹嵌入及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

Yang-Baxter矩阵方程解的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于径向基函数无网格离散的快速多水平算法

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

量子齐次空间上同调的非交换Hodge分解及形变意义

国家自然科学基金

0+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员