Segmental models are sequence prediction models in which scores of hypotheses are based on entire variable-length segments of frames. We consider segmental models for whole-word ("acoustic-to-word") speech recognition, with the feature vectors defined using vector embeddings of segments. Such models are computationally challenging as the number of paths is proportional to the vocabulary size, which can be orders of magnitude larger than when using subword units like phones. We describe an efficient approach for end-to-end whole-word segmental models, with forward-backward and Viterbi decoding performed on a GPU and a simple segment scoring function that reduces space complexity. In addition, we investigate the use of pre-training via jointly trained acoustic word embeddings (AWEs) and acoustically grounded word embeddings (AGWEs) of written word labels. We find that word error rate can be reduced by a large margin by pre-training the acoustic segment representation with AWEs, and additional (smaller) gains can be obtained by pre-training the word prediction layer with AGWEs. Our final models improve over prior A2W models.


翻译:线段模型是序列预测模型,其数个假设是以整个框架的变长部分为基础。 我们考虑全词(“声学到字”)语音识别的区段模型, 其特性矢量使用区块的矢量嵌入来定义。 这些模型在计算上具有挑战性, 因为路径数与词汇大小成正比, 其数量可能大于使用电话等子字单位时的数值。 我们描述端到端整字区段模型的有效方法, 其前向后和维特比解码, 在 GPU 上进行前向后和维特比解码, 简单段评分功能会降低空间复杂性。 此外, 我们通过联合培训的声词嵌入( AWES) 和以声基为基础的字嵌入字( AGWES ) 书面词标签来调查预培训前培训的预培训使用预课, 我们的最后模型改进了先前的 A2W 模型。 我们发现, 单词错误率可以通过与AW 预培训声段表示来大大降低。

0
下载
关闭预览

相关内容

最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
43+阅读 · 2020年11月11日
迁移学习简明教程,11页ppt
专知会员服务
109+阅读 · 2020年8月4日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
用 TensorFlow hub 在 Keras 中做 ELMo 嵌入
AI研习社
5+阅读 · 2019年5月12日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2020年5月25日
Arxiv
4+阅读 · 2019年8月19日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
9+阅读 · 4月25日
多智能体协作机制
专知会员服务
8+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
用 TensorFlow hub 在 Keras 中做 ELMo 嵌入
AI研习社
5+阅读 · 2019年5月12日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员