In end-to-end (E2E) speech recognition models, a representational tight-coupling inevitably emerges between the encoder and the decoder. We build upon recent work that has begun to explore building encoders with modular encoded representations, such that encoders and decoders from different models can be stitched together in a zero-shot manner without further fine-tuning. While previous research only addresses full-context speech models, we explore the problem in a streaming setting as well. Our framework builds on top of existing encoded representations, converting them to modular features, dubbed as Lego-Features, without modifying the pre-trained model. The features remain interchangeable when the model is retrained with distinct initializations. Though sparse, we show that the Lego-Features are powerful when tested with RNN-T or LAS decoders, maintaining high-quality downstream performance. They are also rich enough to represent the first-pass prediction during two-pass deliberation. In this scenario, they outperform the N-best hypotheses, since they do not need to be supplemented with acoustic features to deliver the best results. Moreover, generating the Lego-Features does not require beam search or auto-regressive computation. Overall, they present a modular, powerful and cheap alternative to the standard encoder output, as well as the N-best hypotheses.


翻译:在端到端(E2E)语音识别模型中,编码器和解码器之间不可避免地出现了紧密耦合的代表性。我们在最近已经开始研究使用模块化编码表示构建编码器的基础上,使得来自不同模型的编码器和解码器可以以零增益的方式拼接在一起,而无需进行进一步的微调。尽管先前的研究仅涉及全文本语音模型,但我们也在流式设置下探索了这个问题。我们的框架建立在现有的编码表示之上,将其转换为模块化特征,称为Lego-Features,而无需修改预先训练的模型。在模型重新训练时,这些特征保持可互换,无需进一步的微调。尽管稀疏,但我们证明了Lego-Features在使用RNN-T或LAS解码器进行测试时是强大的,保持着高质量的下游性能。它们还足以表示经过两轮推理时的首次预测。在这种情况下,它们的表现优于N个最佳假设,因为它们不需要补充声学特征才能提供最佳结果。此外,生成Lego-Features不需要进行波束搜索或自回归计算。总的来说,它们是标准编码器输出以及N个最佳假设的模块化,强大和廉价的替代方案。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
33+阅读 · 2021年3月7日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
SIGIR2019 接收论文列表
专知
18+阅读 · 2019年4月20日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
从 Encoder 到 Decoder 实现 Seq2Seq 模型
AI研习社
10+阅读 · 2018年2月10日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月22日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
2+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
1+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
7+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关VIP内容
专知会员服务
33+阅读 · 2021年3月7日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员