PRISM: Processing-In-Memory Sparse MTTKRP for Tensor Decomposition Acceleration - 专知论文

会员服务 ·

0

稀疏 · Tensor · 操作 · 中央处理器 (CPU) · Performer ·

PRISM: Processing-In-Memory Sparse MTTKRP for Tensor Decomposition Acceleration

翻译：PRISM：面向张量分解加速的存内处理稀疏MTTKRP方法

Daniel Pacheco,Leonel Sousa,Aleksandar Ilic

from arxiv, published on IISWC '25 (International Symposium on Workload Characterization)

Sparse tensors are the most used representation of sparse multidimensional data. Operations that decompose them, selecting their most important features while reducing their dimension, have become prevalent procedures in machine learning. One of the most used tensor decomposition algorithms is the Alternating Least Squares Canonical Polyadic Decomposition (CP-ALS), where the most time-consuming operation is the Sparse Matricized Tensor Times Khatri-Rao Product (spMTTKRP). This operation is strongly memory-bound, making it hard to implement efficiently on general-purpose processors. This work proposes PRISM, the first approach to tackle this operation using Processing-In-Memory (PIM) technology. We extensively characterize different partitioning strategies, number formats, and kernel optimizations that efficiently adapt this operation to UPMEM PIM, which is further boosted by heterogeneous collaboration with the CPU. The experimental results show that the proposed PIM-based and heterogeneous approaches achieve up to 2.37x and 2.64x speedup compared to state-of-the-art CPU implementations, respectively. However, the UPMEM distributed memory system can significantly hinder performance on certain workloads. Nonetheless, the efficiency of resource consumption for this approach, measured by peak performance fraction usage, is significantly higher than for both CPU and GPU.

翻译：稀疏张量是多维稀疏数据最常用的表示形式。其分解操作——在降低维度的同时提取最重要特征——已成为机器学习中的常见流程。最常用的张量分解算法之一是交替最小二乘规范多元分解（CP-ALS），其中耗时最长的操作是稀疏矩阵化张量与Khatri-Rao乘积（spMTTKRP）。该操作具有强内存受限特性，难以在通用处理器上高效实现。本文提出PRISM，这是首个利用存内处理（PIM）技术解决该操作的方法。我们深入分析了不同分区策略、数值格式和内核优化，使该操作能够高效适配UPMEM PIM平台，并通过与CPU的异构协作进一步加速。实验结果表明，与最先进的CPU实现相比，所提出的基于PIM的方法和异构方法分别实现了高达2.37倍和2.64倍的加速。然而，UPMEM分布式内存系统在某些工作负载下可能显著影响性能。尽管如此，以峰值性能份额利用率衡量的资源消耗效率仍显著高于CPU和GPU方案。

0

相关内容

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【干货书】系统与控制的稀疏性方法,214页pdf

【干货书】系统与控制的稀疏性方法,214页pdf

专知会员服务

40+阅读 · 2023年5月19日

层次和神经非负张量分解，90页ppt

层次和神经非负张量分解，90页ppt

专知会员服务

24+阅读 · 2022年12月25日

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

专知会员服务

12+阅读 · 2022年3月14日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

专知会员服务

11+阅读 · 2022年1月3日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

【NeurIPS 2020 】面向张量分解知识图谱补全的对偶诱导正则

【NeurIPS 2020 】面向张量分解知识图谱补全的对偶诱导正则

专知会员服务

12+阅读 · 2020年11月17日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

初学者系列：Neural Factorization Machines 神经因子分解机详解

初学者系列：Neural Factorization Machines 神经因子分解机详解

专知

50+阅读 · 2019年9月9日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

PRISMR: Overcoming Parse Collapse in Multimodal Listwise Ranking via Parameterized Representation Internalization

Arxiv

0+阅读 · 6月11日

Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction

Arxiv

0+阅读 · 6月9日

CP-factorization for high dimensional tensor time series and double projection iterations

Arxiv

0+阅读 · 6月7日

Sparse Discovery of Functional Relationships in Solutions to Systems of Differential Equations

Arxiv

0+阅读 · 6月5日

Fast Entropy Decoding for Sparse MVM on GPUs

Arxiv

0+阅读 · 6月2日

TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization

Arxiv

0+阅读 · 6月1日

DISK: Differentiable Sparse Kernel Complex for Efficient Spatially-Variant Convolution

Arxiv

0+阅读 · 5月19日

CB-SpMV:A Data Aggregating and Balance Algorithm for Cache-Friendly Block-Based SpMV on GPUs

Arxiv

0+阅读 · 5月18日

Efficient Spatially-Variant Convolution via Differentiable Sparse Kernel Complex

Arxiv

0+阅读 · 5月17日

Symmetric Tensor Decompositions over Finite Fields

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

中央处理器 (CPU)

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【干货书】系统与控制的稀疏性方法,214页pdf

【干货书】系统与控制的稀疏性方法,214页pdf

专知会员服务

40+阅读 · 2023年5月19日

层次和神经非负张量分解，90页ppt

层次和神经非负张量分解，90页ppt

专知会员服务

24+阅读 · 2022年12月25日

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

专知会员服务

12+阅读 · 2022年3月14日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

【NeurIPS 2021】准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

专知会员服务

11+阅读 · 2022年1月3日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

【NeurIPS 2020 】面向张量分解知识图谱补全的对偶诱导正则

【NeurIPS 2020 】面向张量分解知识图谱补全的对偶诱导正则

专知会员服务

12+阅读 · 2020年11月17日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

初学者系列：Neural Factorization Machines 神经因子分解机详解

初学者系列：Neural Factorization Machines 神经因子分解机详解

专知

50+阅读 · 2019年9月9日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

相关论文

PRISMR: Overcoming Parse Collapse in Multimodal Listwise Ranking via Parameterized Representation Internalization

Arxiv

0+阅读 · 6月11日

Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction

Arxiv

0+阅读 · 6月9日

CP-factorization for high dimensional tensor time series and double projection iterations

Arxiv

0+阅读 · 6月7日

Sparse Discovery of Functional Relationships in Solutions to Systems of Differential Equations

Arxiv

0+阅读 · 6月5日

Fast Entropy Decoding for Sparse MVM on GPUs

Arxiv

0+阅读 · 6月2日

TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization

Arxiv

0+阅读 · 6月1日

DISK: Differentiable Sparse Kernel Complex for Efficient Spatially-Variant Convolution

Arxiv

0+阅读 · 5月19日

CB-SpMV:A Data Aggregating and Balance Algorithm for Cache-Friendly Block-Based SpMV on GPUs

Arxiv

0+阅读 · 5月18日

Efficient Spatially-Variant Convolution via Differentiable Sparse Kernel Complex

Arxiv

0+阅读 · 5月17日

Symmetric Tensor Decompositions over Finite Fields

Arxiv

0+阅读 · 5月12日

相关基金

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员