Single-channel speech enhancement algorithms are often used in resource-constrained embedded devices, where low latency and low complexity designs gain more importance. In recent years, researchers have proposed a wide variety of novel solutions to this problem. In particular, a recent deep learning model named ULCNet is among the state-of-the-art approaches in this domain. This paper proposes an adaptation of ULCNet, by replacing its GRU layers with FastGRNNs, to reduce both computational latency and complexity. Furthermore, this paper shows empirical evidence on the performance decay of FastGRNNs in long audio signals during inference due to internal state drifting, and proposes a novel approach based on a trainable complementary filter to mitigate it. The resulting model, Fast-ULCNet, performs on par with the state-of-the-art original ULCNet architecture on a speech enhancement task, while reducing its model size by more than half and decreasing its latency by 34% on average.


翻译:单通道语音增强算法常被用于资源受限的嵌入式设备中,因此低延迟和低复杂度的设计显得尤为重要。近年来,研究者们针对该问题提出了多种新颖的解决方案。特别是,一种名为ULCNet的深度学习模型已成为该领域最先进的方法之一。本文提出对ULCNet的一种改进,通过将其GRU层替换为FastGRNN,以同时降低计算延迟和复杂度。此外,本文通过实验证据揭示了FastGRNN在推理过程中处理长音频信号时,因内部状态漂移而导致的性能下降问题,并提出了一种基于可训练互补滤波器的新方法来缓解该问题。最终得到的模型——Fast-ULCNet,在语音增强任务上的表现与最先进的原始ULCNet架构相当,同时其模型大小减少了一半以上,平均延迟降低了34%。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员