Spiking neural networks (SNNs) exploit event-driven and addition-only computation to substantially improve efficiency for intelligent computation. A key temporal property of SNNs, elastic inference, allows outputs to emerge progressively, enabling responses to salient inputs much earlier than full evaluation. However, existing SNN-specific accelerators cannot capitalize on this property. Layer-by-layer designs emit outputs only after all layers are complete, while time-step-by-time-step designs rely on coarse-grained, layer-wise pipelines that require synchronizing all spines/tokens within a layer. This barrier prevents results from being forwarded immediately, delaying the earliest possible response and forfeiting the benefits of elastic inference. To address these challenges, we propose ELSA, a near-SRAM dataflow architecture that realizes true elastic inference through a fine-grained spine/token-wise pipeline and hardware optimizations tailored to SNNs. ELSA forwards each spine/token immediately upon production, forming a continuous streaming pipeline that substantially reduces the latency to the first response. To enhance this lightweight execution, ELSA introduces a bundled address event representation protocol to lower communication traffic of network-on-chip (NoC), and leverages mini-batch spiking Gustavson-product to cut memory access and exploit inherent sparsity. Combined with mapping and scheduling optimizations, ELSA achieves efficient, event-driven computation without compromising accuracy. Experiments show that SNNs can outperform quantized artificial neural networks (QANNs) while maintaining on-par accuracy. For a 4-bit ResNet-50, ELSA achieves 3.4$\times$ speedup and 13.6$\times$ higher energy efficiency over the SOTA QANN accelerator (ANT), and 2.9$\times$ speedup and 22.1$\times$ energy efficiency gains over the SOTA SNN accelerator (PAICORE).


翻译:脉冲神经网络(SNN)利用事件驱动和仅加法计算,显著提升了智能计算的效率。SNN的一个关键时序特性——弹性推理,允许输出逐步产生,从而能够比完整评估更早地响应显著输入。然而,现有的SNN专用加速器无法利用这一特性。逐层设计的加速器仅在所有层计算完成后才产生输出,而逐时间步设计的加速器则依赖于粗粒度的逐层流水线,要求同步层内所有脊/标记。这种阻碍使得结果无法被立即转发,延迟了最早可能的响应,并放弃了弹性推理的优势。为解决这些挑战,我们提出了ELSA,一种近SRAM数据流架构,通过细粒度的脊/标记级流水线和针对SNN定制的硬件优化,实现了真正的弹性推理。ELSA在产生每个脊/标记时立即将其转发,形成连续流式流水线,显著降低了首次响应的延迟。为增强这种轻量级执行,ELSA引入了一种捆绑地址事件表示协议,以降低片上网络(NoC)的通信流量,并利用小批量脉冲Gustavson积来减少内存访问并利用固有的稀疏性。结合映射与调度优化,ELSA在保持精度不变的前提下实现了高效的事件驱动计算。实验表明,SNN能在保持同等精度的同时超越量化人工神经网络(QANN)。对于4比特ResNet-50,ELSA在速度上比最先进的QANN加速器(ANT)提升3.4倍,能效提升13.6倍;相比最先进的SNN加速器(PAICORE),速度提升2.9倍,能效提升22.1倍。

0
下载
关闭预览

相关内容

脉冲神经网络在普适计算中的潜力:综述与新视角
专知会员服务
16+阅读 · 2025年6月4日
脉冲神经网络的架构原理、数据集和训练方法
专知会员服务
23+阅读 · 2024年8月13日
专知会员服务
63+阅读 · 2021年9月20日
基于图神经网络的推荐算法总结
机器学习与推荐算法
25+阅读 · 2021年9月30日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
脉冲神经网络(SNN)概述
人工智能前沿讲习班
62+阅读 · 2019年5月30日
SNN,像你的大脑一样工作
中国科学院自动化研究所
80+阅读 · 2018年11月7日
脉冲神经网络,下一代机器学习?
专知
13+阅读 · 2018年1月13日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
39+阅读 · 2018年1月13日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
基于图神经网络的推荐算法总结
机器学习与推荐算法
25+阅读 · 2021年9月30日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
脉冲神经网络(SNN)概述
人工智能前沿讲习班
62+阅读 · 2019年5月30日
SNN,像你的大脑一样工作
中国科学院自动化研究所
80+阅读 · 2018年11月7日
脉冲神经网络,下一代机器学习?
专知
13+阅读 · 2018年1月13日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
39+阅读 · 2018年1月13日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员