In speech enhancement, knowledge distillation (KD) compresses models by transferring a high-capacity teacher's knowledge to a compact student. However, conventional KD methods train the student to mimic the teacher's output entirely, which forces the student to imitate the regions where the teacher performs poorly and to apply distillation to the regions where the student already performs well, which yields only marginal gains. We propose Distilling Selective Patches (DISPatch), a KD framework for speech enhancement that applies the distillation loss to spectrogram patches where the teacher outperforms the student, as determined by a Knowledge Gap Score. This approach guides optimization toward areas with the most significant potential for student improvement while minimizing the influence of regions where the teacher may provide unreliable instruction. Furthermore, we introduce Multi-Scale Selective Patches (MSSP), a frequency-dependent method that uses different patch sizes across low- and high-frequency bands to account for spectral heterogeneity. We incorporate DISPatch into conventional KD methods and observe consistent gains in compact students. Moreover, integrating DISPatch and MSSP into a state-of-the-art frequency-dependent KD method considerably improves performance across all metrics.


翻译:在语音增强任务中,知识蒸馏(KD)通过将高容量教师模型的知识迁移到紧凑的学生模型来实现模型压缩。然而,传统的知识蒸馏方法训练学生模型完全模仿教师模型的输出,这迫使学生模型去模仿教师表现较差的区域,并对学生已经表现良好的区域也进行蒸馏,从而仅带来有限的性能提升。我们提出了选择性频谱块蒸馏(DISPatch),一种用于语音增强的知识蒸馏框架,它仅将蒸馏损失应用于那些由知识差距分数判定为教师模型表现优于学生模型的频谱块上。这种方法将优化过程引导至学生模型最具改进潜力的区域,同时最小化教师模型可能提供不可靠指导的区域的影响。此外,我们提出了多尺度选择性频谱块(MSSP),这是一种频率相关的方法,它在低频和高频子带使用不同大小的频谱块,以考虑频谱的异质性。我们将DISPatch集成到传统的知识蒸馏方法中,观察到紧凑学生模型获得了持续的性能提升。此外,将DISPatch和MSSP集成到一种先进的频率相关知识蒸馏方法中,显著提升了所有评估指标上的性能。

0
下载
关闭预览

相关内容

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型
专知会员服务
21+阅读 · 2024年3月8日
【AAAI2024】EPSD:高效模型压缩中的早期剪枝与自我蒸馏
专知会员服务
24+阅读 · 2024年2月5日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
20+阅读 · 2020年4月14日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关资讯
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员