This paper addresses unsupervised diffusion-based single-channel speech enhancement (SE). Prior work in this direction combines a score-based diffusion model trained on clean speech with a Gaussian noise model whose covariance is structured by non-negative matrix factorization (NMF). This combination is used within an iterative expectation-maximization (EM) scheme, in which a diffusion-based posterior-sampling E-step estimates the clean speech. We first revisit this framework and propose to explicitly model both speech and acoustic noise as latent variables, jointly sampling them in the E-step instead of sampling speech alone as in previous approaches. We then introduce a new unsupervised SE framework that replaces the NMF noise prior with a diffusion-based noise model, learned jointly with the speech prior in a single conditional score model. Within this framework, we derive two variants: one that implicitly accounts for noise and one that explicitly treats noise as a latent variable. Experiments on WSJ0-QUT and VoiceBank-DEMAND show that explicit noise modeling systematically improves SE performance for both NMF-based and diffusion-based noise priors. Under matched conditions, the diffusion-based noise model attains the best overall quality and intelligibility among unsupervised methods, while under mismatched conditions the proposed NMF-based explicit-noise framework is more robust and suffers less degradation than several supervised baselines.


翻译:本文研究基于扩散的无监督单通道语音增强问题。该领域的先前工作将基于分数的扩散模型(在纯净语音上训练)与由非负矩阵分解结构化协方差的高斯噪声模型相结合。该组合被应用于迭代期望最大化方案中,其中基于扩散的后验采样E步用于估计纯净语音。我们首先重新审视该框架,提出将语音和声学噪声均显式建模为潜变量,在E步中对二者进行联合采样,而非如先前方法仅采样语音。随后,我们提出一种新的无监督语音增强框架,该框架用基于扩散的噪声模型替代NMF噪声先验,并与语音先验通过单一条件分数模型联合学习。在此框架下,我们推导出两种变体:一种隐式处理噪声,另一种将噪声显式作为潜变量。在WSJ0-QUT和VoiceBank-DEMAND数据集上的实验表明,显式噪声建模能系统性地提升基于NMF和基于扩散的噪声先验的语音增强性能。在匹配条件下,基于扩散的噪声模型在无监督方法中获得了最佳的整体质量与可懂度;而在失配条件下,所提出的基于NMF的显式噪声框架相比若干有监督基线具有更强的鲁棒性且性能下降更小。

0
下载
关闭预览

相关内容

扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
11+阅读 · 2025年7月10日
《扩散模型》最新教程,141页ppt
专知会员服务
79+阅读 · 2024年12月2日
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
27+阅读 · 2024年2月28日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员