数字内存计算在RISC-V向量架构中的流水线集成以加速深度学习 (In-Pipeline Integration of Digital In-Memory-Computing into RISC-V Vector Architecture to Accelerate Deep Learning) - 专知论文

会员服务 ·

0

内存 · 内存计算 · 集成 · 边缘 · 单元 ·

In-Pipeline Integration of Digital In-Memory-Computing into RISC-V Vector Architecture to Accelerate Deep Learning

翻译：数字内存计算在RISC-V向量架构中的流水线集成以加速深度学习

Tommaso Spagnolo,Cristina Silvano,Riccardo Massa,Filippo Grillotti,Thomas Boesch,Giuseppe Desoli

Expanding Deep Learning applications toward edge computing demands architectures capable of delivering high computational performance and efficiency while adhering to tight power and memory constraints. Digital In-Memory Computing (DIMC) addresses this need by moving part of the computation directly within memory arrays, significantly reducing data movement and improving energy efficiency. This paper introduces a novel architecture that extends the Vector RISC-V Instruction Set Architecture (ISA) to integrate a tightly coupled DIMC unit directly into the execution stage of the pipeline, to accelerate Deep Learning inference at the edge. Specifically, the proposed approach adds four custom instructions dedicated to data loading, computation, and write-back, enabling flexible and optimal control of the inference execution on the target architecture. Experimental results demonstrate high utilization of the DIMC tile in Vector RISC-V and sustained throughput across the ResNet-50 model, achieving a peak performance of 137 GOP/s. The proposed architecture achieves a speedup of 217x over the baseline core and 50x area-normalized speedup even when operating near the hardware resource limits. The experimental results confirm the high potential of the proposed architecture as a scalable and efficient solution to accelerate Deep Learning inference on the edge.

翻译：深度学习应用向边缘计算的扩展需要能够提供高计算性能和效率的架构，同时满足严格的功耗和内存限制。数字内存计算（DIMC）通过将部分计算直接移至内存阵列内部来应对这一需求，显著减少了数据移动并提高了能效。本文介绍了一种新颖的架构，该架构扩展了向量RISC-V指令集架构（ISA），将紧密耦合的DIMC单元直接集成到流水线的执行阶段，以加速边缘端的深度学习推理。具体而言，所提出的方法增加了四条专用于数据加载、计算和写回的自定义指令，从而能够在目标架构上灵活且最优地控制推理执行。实验结果表明，在向量RISC-V中DIMC计算单元得到了高效利用，并在ResNet-50模型上实现了持续的吞吐量，峰值性能达到137 GOP/s。所提出的架构相较于基准核心实现了217倍的加速，即使在接近硬件资源极限的情况下运行，也实现了50倍面积归一化加速。实验结果证实了所提出架构作为加速边缘端深度学习推理的可扩展高效解决方案的巨大潜力。

0

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

34+阅读 · 2025年4月12日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

【剑桥大学博士论文】深度学习中的编码参数和结构效率，150页pdf

【剑桥大学博士论文】深度学习中的编码参数和结构效率，150页pdf

专知会员服务

33+阅读 · 2023年3月1日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

专知会员服务

32+阅读 · 2019年10月30日

【2022新书】深度学习的数学工程，The Mathematical Engineering of Deep Learning

【2022新书】深度学习的数学工程，The Mathematical Engineering of Deep Learning

专知

29+阅读 · 2022年4月12日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【干货】深度学习中的线性代数

【干货】深度学习中的线性代数

专知

21+阅读 · 2018年3月30日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

机器学习研究会

18+阅读 · 2018年2月12日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算中数据流应用的动态计算切分技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高密度三维存储器件集成中的基础科学问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

ABI: A tightly integrated, unified, sparsity-aware, reconfigurable, compute near-register file/cache GPU architecture with light-weight softmax for deep learning, linear algebra, and Ising compute

Arxiv

0+阅读 · 2月15日

GPU-Fuzz: Finding Memory Errors in Deep Learning Frameworks

Arxiv

0+阅读 · 2月13日

Investigating Energy Bounds of Analog Compute-in-Memory with Local Normalization

Arxiv

0+阅读 · 2月8日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

Optimizing Tensor Train Decomposition in DNNs for RISC-V Architectures Using Design Space Exploration and Compiler Optimizations

Arxiv

0+阅读 · 2月2日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

Energy Efficient Exact and Approximate Systolic Array Architecture for Matrix Multiplication

Arxiv

0+阅读 · 1月28日

Design of RIS-aided mMTC+ Networks for Rate Maximization under the Finite Blocklength Regime with Imperfect Channel Knowledge

Arxiv

0+阅读 · 1月27日

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

34+阅读 · 2025年4月12日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

【剑桥大学博士论文】深度学习中的编码参数和结构效率，150页pdf

【剑桥大学博士论文】深度学习中的编码参数和结构效率，150页pdf

专知会员服务

33+阅读 · 2023年3月1日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

专知会员服务

32+阅读 · 2019年10月30日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【2022新书】深度学习的数学工程，The Mathematical Engineering of Deep Learning

【2022新书】深度学习的数学工程，The Mathematical Engineering of Deep Learning

专知

29+阅读 · 2022年4月12日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【干货】深度学习中的线性代数

【干货】深度学习中的线性代数

专知

21+阅读 · 2018年3月30日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

机器学习研究会

18+阅读 · 2018年2月12日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

ABI: A tightly integrated, unified, sparsity-aware, reconfigurable, compute near-register file/cache GPU architecture with light-weight softmax for deep learning, linear algebra, and Ising compute

Arxiv

0+阅读 · 2月15日

GPU-Fuzz: Finding Memory Errors in Deep Learning Frameworks

Arxiv

0+阅读 · 2月13日

Investigating Energy Bounds of Analog Compute-in-Memory with Local Normalization

Arxiv

0+阅读 · 2月8日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

Optimizing Tensor Train Decomposition in DNNs for RISC-V Architectures Using Design Space Exploration and Compiler Optimizations

Arxiv

0+阅读 · 2月2日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

Energy Efficient Exact and Approximate Systolic Array Architecture for Matrix Multiplication

Arxiv

0+阅读 · 1月28日

Design of RIS-aided mMTC+ Networks for Rate Maximization under the Finite Blocklength Regime with Imperfect Channel Knowledge

Arxiv

0+阅读 · 1月27日

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Arxiv

0+阅读 · 1月16日

相关基金

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算中数据流应用的动态计算切分技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高密度三维存储器件集成中的基础科学问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员