Recent studies demonstrate the effectiveness of Self Supervised Learning (SSL) speech representations for Speech Inversion (SI). However, applying SI in real-world scenarios remains challenging due to the pervasive presence of background noise. We propose a unified framework that integrates Speech Enhancement (SE) and SI models through shared SSL-based speech representations. In this framework, the SSL model is trained not only to support the SE module in suppressing noise but also to produce representations that are more informative for the SI task, allowing both modules to benefit from joint training. At a Signal-to-Noise Ratio of -5 db, our method for the SI task achieves relative improvements over the baseline of 80.95% under babble noise and 38.98% under non-babble noise, as measured by the average Pearson product-moment correlation across all estimated parameters.


翻译:近期研究表明,自监督学习语音表征在语音反演任务中具有显著效果。然而,由于现实场景中普遍存在的背景噪声,语音反演的实际应用仍面临挑战。本文提出一种统一框架,通过共享基于自监督学习的语音表征,将语音增强与语音反演模型进行集成。在该框架中,自监督学习模型不仅被训练以支持语音增强模块抑制噪声,同时生成对语音反演任务更具信息量的表征,使得两个模块能够从联合训练中共同受益。在信噪比为-5分贝的条件下,本方法在语音反演任务中取得显著提升:相较于基线方法,在混叠噪声环境下所有估计参数的平均皮尔逊积矩相关系数相对提升80.95%,在非混叠噪声环境下相对提升38.98%。

0
下载
关闭预览

相关内容

通过对比学习提高基于知识对话的鲁棒性
专知会员服务
23+阅读 · 2024年1月10日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
17+阅读 · 2021年3月13日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员