OpenACM: An Open-Source SRAM-Based Approximate CiM Compiler - 专知论文

会员服务 ·

0

编译器 · 近似 · 精度 · 设计 · 自动化 ·

OpenACM: An Open-Source SRAM-Based Approximate CiM Compiler

翻译：OpenACM：一种基于SRAM的开源近似存内计算编译器

Yiqi Zhou,JunHao Ma,Xingyang Li,Yule Sheng,Yue Yuan,Yikai Wang,Bochang Wang,Yiheng Wu,Shan Shen,Wei Xing,Daying Sun,Li Li,Zhiqiang Xiao

from arxiv, Accepted by DATE 2026

The rise of data-intensive AI workloads has exacerbated the ``memory wall'' bottleneck. Digital Compute-in-Memory (DCiM) using SRAM offers a scalable solution, but its vast design space makes manual design impractical, creating a need for automated compilers. A key opportunity lies in approximate computing, which leverages the error tolerance of AI applications for significant energy savings. However, existing DCiM compilers focus on exact arithmetic, failing to exploit this optimization. This paper introduces OpenACM, the first open-source, accuracy-aware compiler for SRAM-based approximate DCiM architectures. OpenACM bridges the gap between application error tolerance and hardware automation. Its key contribution is an integrated library of accuracy-configurable multipliers (exact, tunable approximate, and logarithmic), enabling designers to make fine-grained accuracy-energy trade-offs. The compiler automates the generation of the DCiM architecture, integrating a transistor-level customizable SRAM macro with variation-aware characterization into a complete, open-source physical design flow based on OpenROAD and the FreePDK45 library. This ensures full reproducibility and accessibility, removing dependencies on proprietary tools. Experimental results on representative convolutional neural networks (CNNs) demonstrate that OpenACM achieves energy savings of up to 64\% with negligible loss in application accuracy. The framework is available on \href{https://github.com/ShenShan123/OpenACM}{OpenACM:URL}

翻译：数据密集型人工智能工作负载的兴起加剧了“内存墙”瓶颈。采用SRAM的数字存内计算提供了一种可扩展的解决方案，但其庞大的设计空间使得手动设计不切实际，从而产生了对自动化编译器的需求。一个关键机遇在于近似计算，它利用人工智能应用的容错性来实现显著的节能。然而，现有的数字存内计算编译器专注于精确算术，未能利用这一优化潜力。本文介绍了OpenACM，这是首个面向基于SRAM的近似数字存内计算架构的开源、精度感知编译器。OpenACM弥合了应用容错性与硬件自动化之间的鸿沟。其核心贡献在于集成了一个精度可配置的乘法器库（包括精确、可调近似和对数乘法器），使设计者能够进行细粒度的精度-能耗权衡。该编译器自动化生成数字存内计算架构，将一个晶体管级可定制的SRAM宏与考虑工艺偏差的表征集成到基于OpenROAD和FreePDK45库的完整、开源物理设计流程中。这确保了完全的可复现性和可访问性，消除了对专有工具的依赖。在代表性卷积神经网络上的实验结果表明，OpenACM在应用精度损失可忽略不计的情况下，实现了高达64%的节能。该框架可在\href{https://github.com/ShenShan123/OpenACM}{OpenACM:URL}获取。

0

相关内容

编译器

编译器（Compiler），是一种计算机程序，它会将用某种编程语言写成的源代码（原始语言），转换成另一种编程语言（目标语言）。

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

专知会员服务

38+阅读 · 2020年2月11日

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

专知会员服务

43+阅读 · 2019年11月12日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

量子位

13+阅读 · 2019年5月13日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling

Arxiv

0+阅读 · 2月15日

PAM: Processing Across Memory Hierarchy for Efficient KV-centric LLM Serving System

Arxiv

0+阅读 · 2月12日

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

Arxiv

0+阅读 · 2月5日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

PIM-malloc: A Fast and Scalable Dynamic Memory Allocator for Processing-In-Memory (PIM) Architectures

Arxiv

0+阅读 · 1月27日

CIM-Tuner: Balancing the Compute and Storage Capacity of SRAM-CIM Accelerator via Hardware-mapping Co-exploration

Arxiv

0+阅读 · 1月26日

A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization

Arxiv

0+阅读 · 1月21日

PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator

Arxiv

0+阅读 · 1月20日

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

3+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

7+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

3+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

4+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

18+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

相关VIP内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

内存计算研究进展

专知会员服务

29+阅读 · 2021年2月26日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

【北航】深度学习编译器综述|The Deep Learning Compiler: A Comprehensive Survey

专知会员服务

38+阅读 · 2020年2月11日

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

专知会员服务

43+阅读 · 2019年11月12日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《通过小型无人机系统将情报能力“作战化”》

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

《通用大语言模型：无人机指挥与控制接口》最新40页

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

量子位

13+阅读 · 2019年5月13日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

相关论文

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling

Arxiv

0+阅读 · 2月15日

PAM: Processing Across Memory Hierarchy for Efficient KV-centric LLM Serving System

Arxiv

0+阅读 · 2月12日

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

Arxiv

0+阅读 · 2月5日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

PIM-malloc: A Fast and Scalable Dynamic Memory Allocator for Processing-In-Memory (PIM) Architectures

Arxiv

0+阅读 · 1月27日

CIM-Tuner: Balancing the Compute and Storage Capacity of SRAM-CIM Accelerator via Hardware-mapping Co-exploration

Arxiv

0+阅读 · 1月26日

A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization

Arxiv

0+阅读 · 1月21日

PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator

Arxiv

0+阅读 · 1月20日

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Arxiv

0+阅读 · 1月16日

相关基金

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员