Spike sparsity is widely believed to enable efficient spiking neural network (SNN) inference on GPU hardware. We demonstrate this is an illusion: five distinct sparse computation strategies on Apple M3 Max all fail to outperform dense convolution, because SIMD architectures cannot exploit the fine-grained, unstructured sparsity of i.i.d. binary spikes. Instead, we propose Temporal Aggregated Convolution (TAC), which exploits convolution linearity to pre-aggregate $K$ spike frames before a single convolution call, reducing $T$ calls to $T/K$. On rate-coded data, TAC achieves 13.8times speedup with +1.6% accuracy on MNIST and +5.4% on Fashion-MNIST -- a simultaneous improvement in both speed and accuracy. However, on event-based data where the temporal dimension carries genuine motion information, TAC's temporal collapse is harmful. We therefore introduce TAC-TP (Temporal Preservation), which shares each group's convolution output across K independent LIF steps, preserving full temporal resolution for downstream layers. On DVS128-Gesture, TAC-TP achieves 95.1% accuracy (vs. 96.3% baseline) with 50% fewer convolution calls, while standard TAC drops to 91.3%. Our key finding is that the optimal temporal aggregation strategy is data-dependent: collapse the temporal dimension for rate-coded data (noise reduction) but preserve it for event data (information retention). Speedup is hardware-agnostic: TAC achieves 11.0times on NVIDIA V100, confirming the mechanism transfers across GPU architectures. All operators in the mlx-snn library are open source.


翻译:脉冲稀疏性被广泛认为能够在GPU硬件上实现高效的脉冲神经网络推理。我们证明这是一种错觉:在Apple M3 Max上测试的五种不同稀疏计算策略均未能超越密集卷积,因为SIMD架构无法有效利用独立同分布二元脉冲的细粒度、非结构化稀疏性。为此,我们提出时序聚合卷积,该方法利用卷积的线性特性,将$K$个脉冲帧预先聚合后执行单次卷积调用,从而将$T$次调用减少至$T/K$次。在速率编码数据上,TAC在MNIST数据集上实现了13.8倍加速且准确率提升1.6%,在Fashion-MNIST数据集上准确率提升5.4%——实现了速度与精度的同步提升。然而,对于时间维度承载真实运动信息的事件型数据,TAC的时间维度坍缩会产生负面影响。因此我们提出TAC-TP,该方法将每个卷积组的输出共享给K个独立的LIF步骤,为下游层保留完整的时间分辨率。在DVS128-Gesture数据集上,TAC-TP以减少50%卷积调用的代价实现了95.1%的准确率,而标准TAC准确率降至91.3%。我们的核心发现是:最优时序聚合策略具有数据依赖性——对速率编码数据应坍缩时间维度,而对事件数据则应保留时间维度。这种加速机制具有硬件无关性:TAC在NVIDIA V100上实现了11.0倍加速,证实了该机制在不同GPU架构间的可迁移性。mlx-snn库中的所有算子均已开源。

0
下载
关闭预览

相关内容

脉冲神经网络的架构原理、数据集和训练方法
专知会员服务
23+阅读 · 2024年8月13日
专知会员服务
23+阅读 · 2021年7月15日
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
基于图神经网络的聚类研究与应用
THU数据派
10+阅读 · 2020年5月29日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
脉冲神经网络的架构原理、数据集和训练方法
专知会员服务
23+阅读 · 2024年8月13日
专知会员服务
23+阅读 · 2021年7月15日
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员