SISA: A Scale-In Systolic Array for GEMM Acceleration - 专知论文

会员服务 ·

0

SISA: A Scale-In Systolic Array for GEMM Acceleration

翻译：SISA：一种用于GEMM加速的尺度不变脉动阵列

Luigi Altamura,Alessio Cicero,Mateo Vázquez Maceiras,Mohammad Ali Maleki,Pedro Trancoso

The currently dominant AI/ML workloads, such as Large Language Models (LLMs), rely on the efficient execution of General Matrix-Matrix Multiplication (GEMM) operations. Thus, most systems are equipped with dedicated matrix hardware accelerators based on square Systolic Arrays (SAs) of Processing Elements (PEs). While this organization was effective for traditional Deep Neural Networks (DNNs), LLMs introduce input-dependent and highly skewed matrices, leading to underutilized SA resources. To address this challenge, we propose SISA (Scale-In Systolic Array), a novel SA architecture that partitions the traditional square array into horizontal rectangular slabs. With minimal overhead, SISA exposes parallelism through independently scheduled slabs for efficient execution of small or skewed matrix shapes, while retaining full-array operation for large GEMMs. SISA achieves up to 8.52x speedup and 93% energy-delay-product (EDP) reduction for representative LLMs compared to a state-of-the-art monolithic SA with the same number of PEs.

翻译：当前主流的人工智能/机器学习工作负载，例如大语言模型（LLM），高度依赖通用矩阵乘法（GEMM）操作的高效执行。因此，大多数系统都配备了基于处理单元（PE）的方形脉动阵列（SA）的专用矩阵硬件加速器。尽管这种组织结构对传统深度神经网络（DNN）有效，但LLM引入了输入依赖且高度稀疏的矩阵，导致SA资源利用率低下。为解决这一挑战，我们提出了SISA（尺度不变脉动阵列），一种新颖的SA架构，它将传统的方形阵列划分为水平矩形板块。SISA以极小的开销，通过独立调度的板块暴露并行性，以高效执行小型或稀疏形状的矩阵，同时在对大型GEMM运算时保持全阵列操作。与采用相同PE数量的最先进单片SA相比，SISA在典型LLM上实现了最高8.52倍的加速比和93%的能耗延迟积（EDP）降低。

0

相关内容

利用 Gemini 加速科学研究：案例研究与常用技术

利用 Gemini 加速科学研究：案例研究与常用技术

专知会员服务

17+阅读 · 3月25日

刚刚，DeepSeek新论文《自我原则批评调整（SPCT），以促进 GRM 中有效的推理时间可扩展行为》

刚刚，DeepSeek新论文《自我原则批评调整（SPCT），以促进 GRM 中有效的推理时间可扩展行为》

专知会员服务

22+阅读 · 2025年4月4日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知会员服务

29+阅读 · 2020年3月1日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

脉冲神经网络（SNN）概述

脉冲神经网络（SNN）概述

人工智能前沿讲习班

62+阅读 · 2019年5月30日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

39+阅读 · 2018年1月13日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压电光电子效应的柔性PEDOT:PSS/ZnO纳米线LED阵列的制备及电-光-力性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

CS-MIMO雷达中测量矩阵的构造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于微流体驱动的微纳米多级沟槽结构的飞秒激光制备技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

吸收倍增分离型波导Si/Ge雪崩探测器件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

SiC MOSFET功率器件高速驱动研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲星计时阵列中连续引力波探测和估计的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

Arxiv

0+阅读 · 5月4日

Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

Arxiv

0+阅读 · 5月1日

Tessera: Secure, Near-Line-Rate Weight Streaming for UMA Edge Accelerators

Arxiv

0+阅读 · 4月25日

AsyncSparse: Accelerating Sparse Matrix-Matrix Multiplication on Asynchronous GPU Architectures

Arxiv

0+阅读 · 4月20日

GEM3D CIM General Purpose Matrix Computation Using 3D Integrated SRAM eDRAM Hybrid Compute In Memory on Memory Architecture

Arxiv

0+阅读 · 4月15日

FlexVector: A SpMM Vector Processor with Flexible VRF for GCNs on Varying-Sparsity Graphs

Arxiv

0+阅读 · 4月11日

ADiP: Adaptive-Precision Systolic Array for Matrix Multiplication Acceleration

Arxiv

0+阅读 · 4月1日

HyGra: Accelerating Network-State Simulation for LLM Training in DCNs via Adaptive Packet-Flow Granularity

Arxiv

0+阅读 · 3月19日

bitSMM: A bit-Serial Matrix Multiplication Accelerator

Arxiv

0+阅读 · 3月16日

HyGra: Accelerating Network-State Simulation for LLM Training in DCNs via Adaptive Packet-Flow Granularity

Arxiv

0+阅读 · 3月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

利用 Gemini 加速科学研究：案例研究与常用技术

利用 Gemini 加速科学研究：案例研究与常用技术

专知会员服务

17+阅读 · 3月25日

刚刚，DeepSeek新论文《自我原则批评调整（SPCT），以促进 GRM 中有效的推理时间可扩展行为》

刚刚，DeepSeek新论文《自我原则批评调整（SPCT），以促进 GRM 中有效的推理时间可扩展行为》

专知会员服务

22+阅读 · 2025年4月4日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知会员服务

29+阅读 · 2020年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

脉冲神经网络（SNN）概述

脉冲神经网络（SNN）概述

人工智能前沿讲习班

62+阅读 · 2019年5月30日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

39+阅读 · 2018年1月13日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

相关论文

Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

Arxiv

0+阅读 · 5月4日

Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

Arxiv

0+阅读 · 5月1日

Tessera: Secure, Near-Line-Rate Weight Streaming for UMA Edge Accelerators

Arxiv

0+阅读 · 4月25日

AsyncSparse: Accelerating Sparse Matrix-Matrix Multiplication on Asynchronous GPU Architectures

Arxiv

0+阅读 · 4月20日

GEM3D CIM General Purpose Matrix Computation Using 3D Integrated SRAM eDRAM Hybrid Compute In Memory on Memory Architecture

Arxiv

0+阅读 · 4月15日

FlexVector: A SpMM Vector Processor with Flexible VRF for GCNs on Varying-Sparsity Graphs

Arxiv

0+阅读 · 4月11日

ADiP: Adaptive-Precision Systolic Array for Matrix Multiplication Acceleration

Arxiv

0+阅读 · 4月1日

HyGra: Accelerating Network-State Simulation for LLM Training in DCNs via Adaptive Packet-Flow Granularity

Arxiv

0+阅读 · 3月19日

bitSMM: A bit-Serial Matrix Multiplication Accelerator

Arxiv

0+阅读 · 3月16日

HyGra: Accelerating Network-State Simulation for LLM Training in DCNs via Adaptive Packet-Flow Granularity

Arxiv

0+阅读 · 3月13日

相关基金

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压电光电子效应的柔性PEDOT:PSS/ZnO纳米线LED阵列的制备及电-光-力性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

CS-MIMO雷达中测量矩阵的构造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于微流体驱动的微纳米多级沟槽结构的飞秒激光制备技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

吸收倍增分离型波导Si/Ge雪崩探测器件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

SiC MOSFET功率器件高速驱动研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲星计时阵列中连续引力波探测和估计的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员