Stochastic computing (SC) offers hardware simplicity but suffers from low throughput, while high-throughput Digital Computing-in-Memory (DCIM) is bottlenecked by costly adder logic for matrix-vector multiplication (MVM). To address this trade-off, this paper introduces a digital stochastic CIM (DS-CIM) architecture that achieves both high accuracy and efficiency. We implement signed multiply-accumulation (MAC) in a compact, unsigned OR-based circuit by modifying the data representation. Throughput is enhanced by replicating this low-cost circuit 64 times with only a 1x area increase. Our core strategy, a shared Pseudo Random Number Generator (PRNG) with 2D partitioning, enables single-cycle mutually exclusive activation to eliminate OR-gate collisions. We also resolve the 1s saturation issue via stochastic process analysis and data remapping, significantly improving accuracy and resilience to input sparsity. Our high-accuracy DS-CIM1 variant achieves 94.45% accuracy for INT8 ResNet18 on CIFAR-10 with a root-mean-squared error (RMSE) of just 0.74%. Meanwhile, our high-efficiency DS-CIM2 variant attains an energy efficiency of 3566.1 TOPS/W and an area efficiency of 363.7 TOPS/mm^2, while maintaining a low RMSE of 3.81%. The DS-CIM capability with larger models is further demonstrated through experiments with INT8 ResNet50 on ImageNet and the FP8 LLaMA-7B model.


翻译:随机计算(SC)具有硬件简单的优势,但其吞吐量较低;而高吞吐量的数字存内计算(DCIM)则受限于矩阵向量乘法(MVM)中昂贵的加法器逻辑带来的瓶颈。为了解决这一权衡问题,本文提出了一种数字随机存内计算(DS-CIM)架构,该架构同时实现了高精度与高效率。我们通过修改数据表示方式,在紧凑的无符号OR电路中实现了有符号乘积累加(MAC)运算。通过将该低成本电路复制64次而仅带来1倍面积开销,吞吐量得到了提升。我们的核心策略是采用具有二维分区结构的共享伪随机数生成器(PRNG),实现了单周期互斥激活,从而消除了OR门冲突。我们还通过随机过程分析和数据重映射解决了“1”饱和问题,显著提高了精度和对输入稀疏性的鲁棒性。我们的高精度变体DS-CIM1在CIFAR-10数据集上对INT8 ResNet18模型实现了94.45%的准确率,均方根误差(RMSE)仅为0.74%。同时,我们的高效率变体DS-CIM2实现了3566.1 TOPS/W的能效和363.7 TOPS/mm^2的面积效率,同时保持了3.81%的低RMSE。通过在ImageNet数据集上对INT8 ResNet50模型以及FP8 LLaMA-7B模型进行的实验,进一步证明了DS-CIM处理更大模型的能力。

0
下载
关闭预览

相关内容

DirectShow是一种由微软公司开发的能够让软件开发者对媒体文件执行各种不同处理的应用程序设计接口。
基于脉冲神经网络的边缘智能
专知会员服务
20+阅读 · 2025年7月23日
专知会员服务
29+阅读 · 2021年2月26日
【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
23+阅读 · 2020年4月12日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
2+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
17+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
3+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员