Many real-world applications require to convert speech files into text with high accuracy with limited resources. This paper proposes a method to recognize large speech database fast using the Transformer-based end-to-end model. Transfomers have improved the state-of-the-art performance in many fields as well as speech recognition. But it is not easy to be used for long sequences. In this paper, various techniques to speed up the recognition of real-world speeches are proposed and tested including parallelizing the recognition using batched beam search, detecting end-of-speech based on connectionist temporal classification (CTC), restricting CTC prefix score and splitting long speeches into short segments. Experiments are conducted with real-world Korean speech recognition task. Experimental results with an 8-hour test corpus show that the proposed system can convert speeches into text in less than 3 minutes with 10.73% character error rate which is 27.1% relatively low compared to conventional DNN-HMM based recognition system.


翻译:许多真实世界应用程序要求将语音文件转换为文本,且精密且资源有限。本文件建议采用基于变换器端对端模式快速识别大型语音数据库的方法。 Transfomers改进了许多领域的最新性能以及语音识别。 但对于长序列来说并不容易使用。 在本文中,提出并测试了加速识别真实世界演讲的各种技术,包括使用分批的波束搜索来平行识别,根据连接时间分类(CTC)探测终端语音,限制CTC前缀分数,将长话分解成短段。实验是在现实世界韩国语音识别任务下进行的。实验结果有8小时的测试体显示,拟议的系统可以将演讲转换为短于3分钟的文本,10.73%的字符错误率比常规的DNN-HMM识别系统低27.1%。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【清华大学】图神经网络交通流预测综述论文,19页pdf
专知会员服务
50+阅读 · 2021年1月29日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年6月7日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
10+阅读 · 2018年1月8日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年6月7日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
10+阅读 · 2018年1月8日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
Top
微信扫码咨询专知VIP会员