With the development of teleconferencing and in-vehicle voice assistants, far-field multi-speaker speech recognition has become a hot research topic. Recently, a multi-channel transformer (MCT) has been proposed, which demonstrates the ability of the transformer to model far-field acoustic environments. However, MCT cannot encode high-dimensional acoustic features for each speaker from mixed input audio because of the interference between speakers. Based on these, we propose the multi-channel multi-speaker transformer (M2Former) for far-field multi-speaker ASR in this paper. Experiments on the SMS-WSJ benchmark show that the M2Former outperforms the neural beamformer, MCT, dual-path RNN with transform-average-concatenate and multi-channel deep clustering based end-to-end systems by 9.2%, 14.3%, 24.9%, and 52.2% respectively, in terms of relative word error rate reduction.


翻译:随着远程会议和车载语音助手的发展,远场多说话人语音识别已成为研究热点。近期提出的多通道Transformer(MCT)展示了Transformer建模远场声学环境的能力。然而,由于说话人间的相互干扰,MCT无法从混合输入音频中为每个说话人编码高维声学特征。基于此,本文提出用于远场多说话人自动语音识别的多通道多说话人Transformer(M2Former)。在SMS-WSJ基准测试上的实验表明,M2Former在相对词错误率降低指标上,分别优于基于神经波束成形、MCT、变换-平均-拼接双路径RNN以及多通道深度聚类的端到端系统9.2%、14.3%、24.9%和52.2%。

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
6+阅读 · 2025年12月20日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
22+阅读 · 2025年10月22日
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关资讯
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员