Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition - 专知论文

会员服务 ·

0

检测精度 · 语音识别 · 注意力网络 · 基线 · 识别 ·

2023 年 4 月 5 日

Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition

翻译：双注意力神经换能器实现语音识别中的高效唤醒词检测

Saumya Y. Sahai,Jing Liu,Thejaswi Muniyappa,Kanthashree M. Sathyendra,Anastasios Alexandridis,Grant P. Strimel,Ross McGowan,Ariya Rastrow,Feng-Ju Chang,Athanasios Mouchtaris,Siegfried Kunzmann

from arxiv, Accepted to Proc. IEEE ICASSP 2023

We present dual-attention neural biasing, an architecture designed to boost Wake Words (WW) recognition and improve inference time latency on speech recognition tasks. This architecture enables a dynamic switch for its runtime compute paths by exploiting WW spotting to select which branch of its attention networks to execute for an input audio frame. With this approach, we effectively improve WW spotting accuracy while saving runtime compute cost as defined by floating point operations (FLOPs). Using an in-house de-identified dataset, we demonstrate that the proposed dual-attention network can reduce the compute cost by $90\%$ for WW audio frames, with only $1\%$ increase in the number of parameters. This architecture improves WW F1 score by $16\%$ relative and improves generic rare word error rate by $3\%$ relative compared to the baselines.

翻译：我们提出双注意力神经偏置架构，旨在提升语音识别任务中唤醒词识别效果并优化推理时延。该架构通过利用唤醒词检测为输入音频帧选择注意力网络分支，实现运行时计算路径的动态切换。采用该方法，我们可在显著降低浮点运算定义的计算开销的同时有效提升唤醒词识别精度。基于内部脱敏数据集实验表明，所提双注意力网络可在参数量仅增加1%的情况下，将唤醒词音频帧计算开销降低90%。与基线模型相比，该架构使唤醒词F1分数相对提升16%，生僻词错误率相对降低3%。

0

相关内容

检测精度

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【CVPR2022】端到端实时矢量边缘提取（E2EC）

【CVPR2022】端到端实时矢量边缘提取（E2EC）

专知会员服务

16+阅读 · 2022年4月14日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

专知会员服务

11+阅读 · 2019年12月6日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

机器学习研究会

11+阅读 · 2017年12月5日

【推荐】MXNet深度情感分析实战

【推荐】MXNet深度情感分析实战

机器学习研究会

16+阅读 · 2017年10月4日

前馈神经网络的结构稀疏化设计与分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于非监督学习的互适应脑机接口神经信息解析

国家自然科学基金

4+阅读 · 2014年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

无线传感器网络故障检测机制的研究

国家自然科学基金

1+阅读 · 2013年12月31日

水声传感器网络的高效时间同步与定位

国家自然科学基金

0+阅读 · 2013年12月31日

基于IPv6的全IP无线传感器网络关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

利用浮标实时获取近海跃层数据的技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于注意力的情感脑机接口研究与示范应用

国家自然科学基金

4+阅读 · 2010年12月31日

数字麦克风设计与噪声优化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

SMA增强复合结构的RFID传感标签技术及其监测方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Deep Learning for Multi-User Proactive Beam Handoff: A 6G Application

Arxiv

0+阅读 · 2023年5月22日

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

Arxiv

0+阅读 · 2023年5月22日

Leveraging End-to-End Speech Recognition with Neural Architecture Search

Arxiv

1+阅读 · 2023年5月20日

Self-Reinforcement Attention Mechanism For Tabular Learning

Arxiv

0+阅读 · 2023年5月19日

Powerful Graph Convolutioal Networks with Adaptive Propagation Mechanism for Homophily and Heterophily

Arxiv

20+阅读 · 2021年12月27日

Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New Directions

Arxiv

20+阅读 · 2021年8月30日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Temporal Graph Networks for Deep Learning on Dynamic Graphs

Arxiv

37+阅读 · 2020年10月9日

Deep Active Learning for Named Entity Recognition

Arxiv

15+阅读 · 2018年2月4日

VIP会员

文章信息

相关主题

注意力网络

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

4+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

17+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

23+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【CVPR2022】端到端实时矢量边缘提取（E2EC）

【CVPR2022】端到端实时矢量边缘提取（E2EC）

专知会员服务

16+阅读 · 2022年4月14日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

专知会员服务

11+阅读 · 2019年12月6日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

【推荐】(TensorFlow)SSD实时手部检测与追踪（附代码）

机器学习研究会

11+阅读 · 2017年12月5日

【推荐】MXNet深度情感分析实战

【推荐】MXNet深度情感分析实战

机器学习研究会

16+阅读 · 2017年10月4日

相关论文

Deep Learning for Multi-User Proactive Beam Handoff: A 6G Application

Arxiv

0+阅读 · 2023年5月22日

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches

Arxiv

0+阅读 · 2023年5月22日

Leveraging End-to-End Speech Recognition with Neural Architecture Search

Arxiv

1+阅读 · 2023年5月20日

Self-Reinforcement Attention Mechanism For Tabular Learning

Arxiv

0+阅读 · 2023年5月19日

Powerful Graph Convolutioal Networks with Adaptive Propagation Mechanism for Homophily and Heterophily

Arxiv

20+阅读 · 2021年12月27日

Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New Directions

Arxiv

20+阅读 · 2021年8月30日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Temporal Graph Networks for Deep Learning on Dynamic Graphs

Arxiv

37+阅读 · 2020年10月9日

Deep Active Learning for Named Entity Recognition

Arxiv

15+阅读 · 2018年2月4日

相关基金

前馈神经网络的结构稀疏化设计与分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于非监督学习的互适应脑机接口神经信息解析

国家自然科学基金

4+阅读 · 2014年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

无线传感器网络故障检测机制的研究

国家自然科学基金

1+阅读 · 2013年12月31日

水声传感器网络的高效时间同步与定位

国家自然科学基金

0+阅读 · 2013年12月31日

基于IPv6的全IP无线传感器网络关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

利用浮标实时获取近海跃层数据的技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于注意力的情感脑机接口研究与示范应用

国家自然科学基金

4+阅读 · 2010年12月31日

数字麦克风设计与噪声优化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

SMA增强复合结构的RFID传感标签技术及其监测方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员