This study addresses the problem of single-channel Automatic Speech Recognition of a target speaker within an overlap speech scenario. In the proposed method, the hidden representations in the acoustic model are modulated by speaker auxiliary information to recognize only the desired speaker. Affine transformation layers are inserted into the acoustic model network to integrate speaker information with the acoustic features. The speaker conditioning process allows the acoustic model to perform computation in the context of target-speaker auxiliary information. The proposed speaker conditioning method is a general approach and can be applied to any acoustic model architecture. Here, we employ speaker conditioning on a ResNet acoustic model. Experiments on the WSJ corpus show that the proposed speaker conditioning method is an effective solution to fuse speaker auxiliary information with acoustic features for multi-speaker speech recognition, achieving +9% and +20% relative WER reduction for clean and overlap speech scenarios, respectively, compared to the original ResNet acoustic model baseline.


翻译:本研究涉及在重叠演讲情景下对目标演讲者进行单声道自动语音识别的问题。在拟议方法中,音响模型中的隐蔽表达方式由发言者辅助信息调节,只识别想要的发言者。在音响模型网络中插入了松动变异层,将音响信息与声学特征相结合。扩音调节程序允许音响模型在目标发言人辅助信息的背景下进行计算。拟议音响调节方法是一种一般方法,可以适用于任何音响模型结构。在这里,我们使用ResNet声学模型上的扬声器调节。WSJ机上的实验显示,与最初的ResNet声学模型基线相比,拟议的扬声器调节方法是一种有效的解决办法,可以将具有声学特征的语音辅助信息用于多声频语音识别,在清洁和重叠语音情景下分别实现+9%和+20%的相对WER减少。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
11+阅读 · 2019年4月26日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年7月29日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
5+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
8+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
8+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
8+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
17+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
14+阅读 · 6月4日
相关VIP内容
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
11+阅读 · 2019年4月26日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
Top
微信扫码咨询专知VIP会员