Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators - 专知论文

会员服务 ·

0

精度 · 内存 · 内存计算 · 混合 · 交叉阵列 ·

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

翻译：基于RRAM的内存计算加速器的混合精度训练与编译

Rebecca Pelke,Joel Klein,Jose Cubero-Cascante,Nils Bosbach,Jan Moritz Joseph,Rainer Leupers

from arxiv, PREPRINT - Accepted for publication at the Design, Automation & Test in Europe Conference & Exhibition (DATE), April 20-22, 2026, in Verona, Italy

Computing-in-Memory (CIM) accelerators are a promising solution for accelerating Machine Learning (ML) workloads, as they perform Matrix-Vector Multiplications (MVMs) on crossbar arrays directly in memory. Although the bit widths of the crossbar inputs and cells are very limited, most CIM compilers do not support quantization below 8 bit. As a result, a single MVM requires many compute cycles, and weights cannot be efficiently stored in a single crossbar cell. To address this problem, we propose a mixed-precision training and compilation framework for CIM architectures. The biggest challenge is the massive search space, that makes it difficult to find good quantization parameters. This is why we introduce a reinforcement learning-based strategy to find suitable quantization configurations that balance latency and accuracy. In the best case, our approach achieves up to a 2.48x speedup over existing state-of-the-art solutions, with an accuracy loss of only 0.086 %.

翻译：内存计算（CIM）加速器是加速机器学习（ML）工作负载的一种有前景的解决方案，因为它们直接在存储器的交叉阵列上执行矩阵向量乘法（MVM）。尽管交叉阵列输入和单元的位宽非常有限，但大多数CIM编译器不支持低于8位的量化。因此，单个MVM需要许多计算周期，并且权重无法高效地存储在单个交叉阵列单元中。为了解决这个问题，我们提出了一种用于CIM架构的混合精度训练与编译框架。最大的挑战在于巨大的搜索空间，这使得难以找到良好的量化参数。为此，我们引入了一种基于强化学习的策略，以寻找能够平衡延迟与精度的合适量化配置。在最佳情况下，我们的方法相比现有最先进的解决方案实现了高达2.48倍的加速，而精度损失仅为0.086%。

0

相关内容

《实时机器学习（RTML）编译硬件神经网加速器（CHANNA）项目》DARPA项目报告

《实时机器学习（RTML）编译硬件神经网加速器（CHANNA）项目》DARPA项目报告

专知会员服务

14+阅读 · 2025年7月9日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

美国陆军研究实验室《机器学习在美国陆军中的当前和未来应用》64页技术报告

美国陆军研究实验室《机器学习在美国陆军中的当前和未来应用》64页技术报告

专知会员服务

80+阅读 · 2022年7月26日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知会员服务

131+阅读 · 2020年3月7日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

高密度三维存储器件集成中的基础科学问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-level Non-idealities

Arxiv

0+阅读 · 3月17日

SRAM-Based Compute-in-Memory Accelerator for Linear-decay Spiking Neural Networks

Arxiv

0+阅读 · 3月13日

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Arxiv

0+阅读 · 3月4日

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Arxiv

0+阅读 · 3月4日

When Small Variations Become Big Failures: Reliability Challenges in Compute-in-Memory Neural Accelerators

Arxiv

0+阅读 · 3月3日

Dynamic Symmetric Point Tracking: Tackling Non-ideal Reference in Analog In-memory Training

Arxiv

0+阅读 · 2月24日

DARTH-PUM: A Hybrid Processing-Using-Memory Architecture

Arxiv

0+阅读 · 2月17日

Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Hemlet: A Heterogeneous Compute-in-Memory Chiplet Architecture for Vision Transformers with Group-Level Parallelism

Arxiv

0+阅读 · 2月9日

In-Pipeline Integration of Digital In-Memory-Computing into RISC-V Vector Architecture to Accelerate Deep Learning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

《实时机器学习（RTML）编译硬件神经网加速器（CHANNA）项目》DARPA项目报告

《实时机器学习（RTML）编译硬件神经网加速器（CHANNA）项目》DARPA项目报告

专知会员服务

14+阅读 · 2025年7月9日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

美国陆军研究实验室《机器学习在美国陆军中的当前和未来应用》64页技术报告

美国陆军研究实验室《机器学习在美国陆军中的当前和未来应用》64页技术报告

专知会员服务

80+阅读 · 2022年7月26日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知会员服务

131+阅读 · 2020年3月7日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

相关论文

NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-level Non-idealities

Arxiv

0+阅读 · 3月17日

SRAM-Based Compute-in-Memory Accelerator for Linear-decay Spiking Neural Networks

Arxiv

0+阅读 · 3月13日

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Arxiv

0+阅读 · 3月4日

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Arxiv

0+阅读 · 3月4日

When Small Variations Become Big Failures: Reliability Challenges in Compute-in-Memory Neural Accelerators

Arxiv

0+阅读 · 3月3日

Dynamic Symmetric Point Tracking: Tackling Non-ideal Reference in Analog In-memory Training

Arxiv

0+阅读 · 2月24日

DARTH-PUM: A Hybrid Processing-Using-Memory Architecture

Arxiv

0+阅读 · 2月17日

Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Hemlet: A Heterogeneous Compute-in-Memory Chiplet Architecture for Vision Transformers with Group-Level Parallelism

Arxiv

0+阅读 · 2月9日

In-Pipeline Integration of Digital In-Memory-Computing into RISC-V Vector Architecture to Accelerate Deep Learning

Arxiv

0+阅读 · 2月2日

相关基金

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

高密度三维存储器件集成中的基础科学问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员