Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition - 专知论文

会员服务 ·

0

Conformer · FAST · Attention · 原点 · 语音识别 ·

2023 年 5 月 11 日

Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition

翻译：快速Conformer：具有线性可扩展注意力机制的高效语音识别

Dima Rekesh,Samuel Kriman,Somshubra Majumdar,Vahid Noroozi,He Huang,Oleksii Hrinchuk,Ankur Kumar,Boris Ginsburg

Conformer-based models have become the most dominant end-to-end architecture for speech processing tasks. In this work, we propose a carefully redesigned Conformer with a new down-sampling schema. The proposed model, named Fast Conformer, is 2.8x faster than original Conformer, while preserving state-of-the-art accuracy on Automatic Speech Recognition benchmarks. Also we replace the original Conformer global attention with limited context attention post-training to enable transcription of an hour-long audio. We further improve long-form speech transcription by adding a global token. Fast Conformer combined with a Transformer decoder also outperforms the original Conformer in accuracy and in speed for Speech Translation and Spoken Language Understanding.

翻译：基于Conformer的模型已成为语音处理任务中最主流的端到端架构。本文提出了一种经过精心重新设计的Conformer模型，并引入新的下采样方案。所提出的模型名为Fast Conformer，在自动语音识别基准测试中保持最先进准确率的同时，其运行速度比原始Conformer快2.8倍。此外，我们采用训练后有限上下文注意力机制替代原始Conformer的全局注意力机制，从而实现对长达一小时音频的转录。我们通过添加全局标记进一步改进长语音转录。与Transformer解码器结合的Fast Conformer在语音翻译和口语理解任务中，其准确率和速度均优于原始Conformer。

0

相关内容

Conformer

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

Atrx 基因失活促进脑胶质瘤形成的表观遗传学机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

混凝土Weibull统计尺寸效应理论模型改进研究

国家自然科学基金

0+阅读 · 2013年12月31日

强韧化碳基复合薄膜的多元/多界面结构可控与性能关联性

国家自然科学基金

0+阅读 · 2013年12月31日

磁场诱导CNTs有序排列的高分子-无机杂化膜的制备

国家自然科学基金

0+阅读 · 2013年12月31日

POSS纳米杂化复合树脂杂化增强机制的纳观力学模型

国家自然科学基金

0+阅读 · 2012年12月31日

单个流体包裹体CO2碳同位素显微激光拉曼光谱分析研究

国家自然科学基金

0+阅读 · 2011年12月31日

环氧树脂/纳米二氧化硅包覆多壁碳纳米管/二氧化硅复合材料的导热绝缘行为

国家自然科学基金

0+阅读 · 2009年12月31日

硬质合金表面改性生成CNTs增强金刚石膜基结合力研究

国家自然科学基金

0+阅读 · 2009年12月31日

Prokineticin 2 调节SCN神经元的电生理活动及昼夜节律行为

国家自然科学基金

0+阅读 · 2009年12月31日

胃癌患者舌苔形成与EGF、TGF-α21333;核苷酸多态性关联分析

国家自然科学基金

0+阅读 · 2009年12月31日

A Flyweight CNN with Adaptive Decoder for Schistosoma mansoni Egg Detection

Arxiv

0+阅读 · 2023年6月26日

Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems

Arxiv

0+阅读 · 2023年6月26日

Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference

Arxiv

2+阅读 · 2023年6月26日

An Analysis of Personalized Speech Recognition System Development for the Deaf and Hard-of-Hearing

Arxiv

0+阅读 · 2023年6月24日

Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems

Arxiv

0+阅读 · 2023年6月23日

A Sparse Graph Formulation for Efficient Spectral Image Segmentation

Arxiv

0+阅读 · 2023年6月22日

Hybrid Curriculum Learning for Emotion Recognition in Conversation

Arxiv

14+阅读 · 2021年12月22日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Reverse Attention for Salient Object Detection

Arxiv

11+阅读 · 2019年4月15日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

相关论文

A Flyweight CNN with Adaptive Decoder for Schistosoma mansoni Egg Detection

Arxiv

0+阅读 · 2023年6月26日

Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems

Arxiv

0+阅读 · 2023年6月26日

Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference

Arxiv

2+阅读 · 2023年6月26日

An Analysis of Personalized Speech Recognition System Development for the Deaf and Hard-of-Hearing

Arxiv

0+阅读 · 2023年6月24日

Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems

Arxiv

0+阅读 · 2023年6月23日

A Sparse Graph Formulation for Efficient Spectral Image Segmentation

Arxiv

0+阅读 · 2023年6月22日

Hybrid Curriculum Learning for Emotion Recognition in Conversation

Arxiv

14+阅读 · 2021年12月22日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Reverse Attention for Salient Object Detection

Arxiv

11+阅读 · 2019年4月15日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

相关基金

Atrx 基因失活促进脑胶质瘤形成的表观遗传学机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

混凝土Weibull统计尺寸效应理论模型改进研究

国家自然科学基金

0+阅读 · 2013年12月31日

强韧化碳基复合薄膜的多元/多界面结构可控与性能关联性

国家自然科学基金

0+阅读 · 2013年12月31日

磁场诱导CNTs有序排列的高分子-无机杂化膜的制备

国家自然科学基金

0+阅读 · 2013年12月31日

POSS纳米杂化复合树脂杂化增强机制的纳观力学模型

国家自然科学基金

0+阅读 · 2012年12月31日

单个流体包裹体CO2碳同位素显微激光拉曼光谱分析研究

国家自然科学基金

0+阅读 · 2011年12月31日

环氧树脂/纳米二氧化硅包覆多壁碳纳米管/二氧化硅复合材料的导热绝缘行为

国家自然科学基金

0+阅读 · 2009年12月31日

硬质合金表面改性生成CNTs增强金刚石膜基结合力研究

国家自然科学基金

0+阅读 · 2009年12月31日

Prokineticin 2 调节SCN神经元的电生理活动及昼夜节律行为

国家自然科学基金

0+阅读 · 2009年12月31日

胃癌患者舌苔形成与EGF、TGF-α21333;核苷酸多态性关联分析

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员