Spiking neural networks (SNNs) offer a promising path toward energy-efficient speech command recognition (SCR) by leveraging their event-driven processing paradigm. However, existing SNN-based SCR methods often struggle to capture rich temporal dependencies and contextual information from speech due to limited temporal modeling and binary spike-based representations. To address these challenges, we first introduce the multi-view spiking temporal-aware self-attention (MSTASA) module, which combines effective spiking temporal-aware attention with a multi-view learning framework to model complementary temporal dependencies in speech commands. Building on MSTASA, we further propose SpikCommander, a fully spike-driven transformer architecture that integrates MSTASA with a spiking contextual refinement channel MLP (SCR-MLP) to jointly enhance temporal context modeling and channel-wise feature integration. We evaluate our method on three benchmark datasets: the Spiking Heidelberg Dataset (SHD), the Spiking Speech Commands (SSC), and the Google Speech Commands V2 (GSC). Extensive experiments demonstrate that SpikCommander consistently outperforms state-of-the-art (SOTA) SNN approaches with fewer parameters under comparable time steps, highlighting its effectiveness and efficiency for robust speech command recognition.


翻译:脉冲神经网络(SNNs)凭借其事件驱动的处理范式,为通向高能效的语音命令识别(SCR)提供了一条有前景的路径。然而,由于有限的时间建模能力和基于二进制脉冲的表示,现有的基于SNN的SCR方法通常难以从语音中捕获丰富的时间依赖性和上下文信息。为了应对这些挑战,我们首先引入了多视图脉冲时序感知自注意力(MSTASA)模块,该模块将有效的脉冲时序感知注意力与多视图学习框架相结合,以建模语音命令中互补的时间依赖性。基于MSTASA,我们进一步提出了SpikCommander,这是一种完全由脉冲驱动的Transformer架构,它将MSTASA与一个脉冲上下文细化通道MLP(SCR-MLP)相结合,共同增强时间上下文建模和通道级特征整合。我们在三个基准数据集上评估了我们的方法:Spiking Heidelberg Dataset (SHD)、Spiking Speech Commands (SSC) 和 Google Speech Commands V2 (GSC)。大量实验表明,在可比的时间步长下,SpikCommander以更少的参数持续优于最先进的SNN方法,突显了其在鲁棒语音命令识别方面的有效性和高效性。

0
下载
关闭预览

相关内容

脉冲神经网络在普适计算中的潜力:综述与新视角
专知会员服务
16+阅读 · 2025年6月4日
脉冲神经网络的架构原理、数据集和训练方法
专知会员服务
23+阅读 · 2024年8月13日
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
42+阅读 · 2022年3月12日
专知会员服务
63+阅读 · 2021年9月20日
【GNN】MPNN:消息传递神经网络
深度学习自然语言处理
17+阅读 · 2020年4月11日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
SNN,像你的大脑一样工作
中国科学院自动化研究所
80+阅读 · 2018年11月7日
脉冲神经网络,下一代机器学习?
专知
13+阅读 · 2018年1月13日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
39+阅读 · 2018年1月13日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关资讯
【GNN】MPNN:消息传递神经网络
深度学习自然语言处理
17+阅读 · 2020年4月11日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
SNN,像你的大脑一样工作
中国科学院自动化研究所
80+阅读 · 2018年11月7日
脉冲神经网络,下一代机器学习?
专知
13+阅读 · 2018年1月13日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
39+阅读 · 2018年1月13日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员