We study diffusion-based speech enhancement using a Schrodinger bridge formulation and extend the EDM2 framework to this setting. We employ time-dependent preconditioning of network inputs and outputs to stabilize training and explore two skip-connection configurations that allow the network to predict either environmental noise or clean speech. To control activation and weight magnitudes, we adopt a magnitude-preserving architecture and learn the contribution of the noisy input within each network block for improved conditioning. We further analyze the impact of exponential moving average (EMA) parameter smoothing by approximating different EMA profiles post training, finding that, unlike in image generation, short or absent EMA consistently yields better speech enhancement performance. Experiments on VoiceBank-DEMAND and EARS-WHAM demonstrate competitive signal-to-distortion ratios and perceptual scores, with the two skip-connection variants exhibiting complementary strengths. These findings provide new insights into EMA behavior, magnitude preservation, and skip-connection design for diffusion-based speech enhancement.


翻译:我们利用薛定谔桥公式研究基于扩散的语音增强,并将EDM2框架扩展至该场景。我们采用时间相关的网络输入与输出预调节以稳定训练,并探索了两种跳跃连接配置,使网络能够预测环境噪声或纯净语音。为控制激活值和权重幅度,我们采用了一种幅度保持架构,并在每个网络块中学习含噪输入的贡献以改进条件化。我们进一步通过训练后近似不同的指数移动平均(EMA)曲线来分析EMA参数平滑的影响,发现与图像生成不同,短时或未使用EMA始终能获得更好的语音增强性能。在VoiceBank-DEMAND和EARS-WHAM数据集上的实验展示了具有竞争力的信号失真比和感知分数,两种跳跃连接变体表现出互补优势。这些发现为基于扩散的语音增强中的EMA行为、幅度保持及跳跃连接设计提供了新的见解。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
BiSeNet:双向分割网络进行实时语义分割
统计学习与视觉计算组
22+阅读 · 2018年8月23日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
相关资讯
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
BiSeNet:双向分割网络进行实时语义分割
统计学习与视觉计算组
22+阅读 · 2018年8月23日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员