Artificial intelligence (AI) models are currently driven by a significant upscaling of their complexity, with massive matrix-multiplication workloads representing the major computational bottleneck. In-memory computing (IMC) architectures are proposed to avoid the von Neumann bottleneck. However, both digital/binary-based and analog IMC architectures suffer from various limitations, which significantly degrade the performance and energy efficiency gains. This work proposes OISMA, an energy-efficient IMC architecture that utilizes the computational simplicity of a quasi-stochastic computing (SC) domain (bent-pyramid (BP) system) while keeping the same efficiency, scalability, and productivity of digital memories. OISMA converts normal memory read operations into in situ stochastic multiplication operations with a negligible cost. An accumulation periphery then accumulates the output multiplication bitstreams, achieving the matrix multiplication (MatMul) functionality. A 4-kB 1T1R OISMA array was implemented using a commercial 180-nm technology node and in-house resistive random-access memory (RRAM) technology. At 50 MHz, it achieves 0.789 TOPS/W and 3.98 GOPS/mm2 for energy and area efficiency, respectively, occupying an effective computing area of 0.804241 mm2. Scaling OISMA to 22-nm technology shows a significant improvement of two orders of magnitude in energy efficiency and one order of magnitude in area efficiency, compared to dense MatMul IMC architectures.


翻译:人工智能(AI)模型目前正通过大幅提升其复杂性来驱动发展,其中大规模矩阵乘法工作负载构成了主要的计算瓶颈。内存计算(IMC)架构被提出以规避冯·诺依曼瓶颈。然而,基于数字/二进制和模拟的IMC架构均面临各种限制,这显著降低了其性能和能效增益。本文提出OISMA,一种能效型IMC架构,它利用准随机计算(SC)域(弯金字塔(BP)系统)的计算简洁性,同时保持数字存储器的相同效率、可扩展性和生产力。OISMA将常规内存读取操作以极低成本转换为原位随机乘法操作。随后,累加外围电路对输出的乘法比特流进行累积,实现矩阵乘法(MatMul)功能。采用商用180nm工艺节点与自主研发的阻变随机存取存储器(RRAM)技术实现了一个4kB的1T1R型OISMA阵列。在50MHz频率下,其能效达到0.789 TOPS/W,面积效率达到3.98 GOPS/mm²,有效计算面积占用为0.804241 mm²。将OISMA扩展至22nm工艺技术后,与稠密MatMul IMC架构相比,其能效提升两个数量级,面积效率提升一个数量级。

0
下载
关闭预览

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
《用于空战机动的分层多智能体强化学习》
专知会员服务
69+阅读 · 2023年10月5日
专知会员服务
148+阅读 · 2021年8月12日
专知会员服务
29+阅读 · 2021年2月26日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员