We propose a technique to compute spectrograms using Frequency Domain Linear Prediction (FDLP) that uses all-pole models to fit the Hilbert envelope of speech in different frequency sub-bands. The spectrogram of a complete speech utterance is computed by overlap-add of contiguous all-pole model responses. The long context window of 1.5 seconds allows us to capture the low frequency temporal modulations of speech in the spectrogram. For an end-to-end automatic speech recognition task, the FDLP-spectrogram performs at-par with the standard mel-spectrogram features for clean read speech training and test data. For more realistic mismatched train-test situations and noisy, reverberated training data, the FDLP-spectrogram shows up to 25% and 22% WER improvements over mel-spectrogram respectively.


翻译:我们建议使用频度内线性预测(DFLP)计算光谱技术,该技术使用全极模型来匹配不同频率子波段的Hilbert语音信封。完整语音的光谱是通过相连接的全极模型响应的重叠附加计算出来的。1.5秒长的上下文窗口允许我们捕捉光光谱中低频时间调制的语音。为了完成端到端自动语音识别任务,FDLP-spectrogram与标准的中位光谱特征同时进行,用于清洁读话培训和测试数据。对于更符合现实的不匹配的火车测试情况以及噪音、变动的培训数据,FDLP-光谱显示在Mel-spectrogram上分别达到25%和22%的WER改进率。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
简明扼要!Python教程手册,206页pdf
专知会员服务
48+阅读 · 2020年3月24日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
24+阅读 · 2019年9月21日
已删除
AI掘金志
7+阅读 · 2019年7月8日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
语音识别之--扑朔迷“离”
微信AI
6+阅读 · 2017年8月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
24+阅读 · 2019年9月21日
已删除
AI掘金志
7+阅读 · 2019年7月8日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
语音识别之--扑朔迷“离”
微信AI
6+阅读 · 2017年8月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员