Integrating front-end speech enhancement (SE) models with self-supervised learning (SSL)-based speech models is effective for downstream tasks in noisy conditions. SE models are commonly fine-tuned using SSL representations with mean squared error (MSE) loss between enhanced and clean speech. However, MSE is prone to exploiting positional embeddings in SSL models, allowing the objective to be minimised through positional correlations instead of content-related information. This work frames the problem as a general limitation of self-supervised representation fine-tuning and investigates it through representation-guided SE. Two strategies are considered: (1) zero-padding, previously explored in SSL pre-training but here examined in the fine-tuning setting, and (2) speed perturbations with a soft-DTW loss. Experiments show that the soft-DTW-based approach achieves faster convergence and improved downstream performance, underscoring the importance of position-invariant fine-tuning in SSL-based speech modelling.


翻译:将前端语音增强模型与基于自监督学习的语音模型相结合,对于噪声环境下的下游任务具有显著效果。语音增强模型通常通过自监督学习表示进行微调,采用增强语音与纯净语音之间的均方误差损失函数。然而,均方误差损失容易利用自监督学习模型中的位置嵌入,使得目标函数可以通过位置相关性而非内容相关信息实现最小化。本研究将该问题构建为自监督表示微调的一般性局限,并通过表示引导的语音增强进行探究。我们考虑了两种策略:(1)零填充方法——该方法先前已在自监督学习预训练阶段得到探索,本文则将其置于微调场景中进行考察;(2)结合软动态时间规整损失的语速扰动方法。实验表明,基于软动态时间规整的方法实现了更快的收敛速度与更优的下游任务性能,从而印证了在基于自监督学习的语音建模中实施位置不变性微调的重要性。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
27+阅读 · 2025年10月8日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
38+阅读 · 2020年12月26日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关VIP内容
多模态大语言模型的自我改进:综述
专知会员服务
27+阅读 · 2025年10月8日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
38+阅读 · 2020年12月26日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员