A Comparison of Generative and Discriminative Methods for Speech Enhancement: Robustness, Complexity, and Hallucination - 专知论文

会员服务 ·

0

语音增强 · 方法比较 · 鲁棒 · 分析 · 低信噪比 ·

A Comparison of Generative and Discriminative Methods for Speech Enhancement: Robustness, Complexity, and Hallucination

翻译：用于语音增强的生成式与判别式方法比较：鲁棒性、复杂度与幻觉

Shrishti Saha Shetu,Emanuël A. P. Habets,Andreas Brendel

In this study, we conduct a comprehensive comparative analysis of generative and discriminative deep learning-based speech enhancement methods, specifically in noise reduction tasks. Our investigation focuses on evaluating their effectiveness under high and low signal-to-noise ratio conditions, considering both matched and mismatched training scenarios. We further investigate the impact of training data volume, model convergence speed, and interpret the performance differences in terms of objective results for the considered training paradigms. Additionally, we compare the complexity-performance trade-off and the practical viability of these approaches. To further strengthen the evaluation, we study the hallucination characteristics of generative approaches in terms of word error rate and phoneme similarity. The insights derived from this study provide empirical evidence to assist researchers and practitioners in understanding whether the perceptual gains of different approaches justify their computational cost in practical applications.

翻译：本研究对基于深度学习的生成式和判别式语音增强方法进行了全面的比较分析，重点关注降噪任务。我们的研究聚焦于评估它们在高低信噪比条件下的有效性，并考虑了训练场景匹配与不匹配的情况。我们进一步探究了训练数据量、模型收敛速度的影响，并根据所考虑的范式，从客观结果的角度解释了性能差异。此外，我们还比较了这些方法的复杂度-性能权衡及其实际可行性。为进一步加强评估，我们以词错误率和音素相似度为指标，研究了生成式方法的幻觉特征。本研究的见解为研究人员和从业者提供了实证依据，以理解不同方法的感知增益在实际应用中是否证明其计算成本是合理的。

0

相关内容

语音增强

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

专知会员服务

31+阅读 · 2024年4月13日

深度视觉语音生成研究进展与展望

深度视觉语音生成研究进展与展望

专知会员服务

27+阅读 · 2024年4月12日

通过对比学习提高基于知识对话的鲁棒性

通过对比学习提高基于知识对话的鲁棒性

专知会员服务

23+阅读 · 2024年1月10日

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

专知会员服务

44+阅读 · 2022年5月26日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

语音信号处理：基本方法与前沿技术

语音信号处理：基本方法与前沿技术

AINLP

10+阅读 · 2020年10月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Intelligibility of Speech in Noise: Investigating Contribution of Magnitude and Phase Spectra

Arxiv

0+阅读 · 6月15日

Towards Robust Generative Speech Enhancement Using Vector Quantisation-Based Neural Audio Codec

Arxiv

0+阅读 · 6月15日

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

Generative AI for Managerial Decision-Making under Ambiguity and Sycophancy

Arxiv

0+阅读 · 6月11日

NOVA: NOise-aware Verbal Confidence CAlibration for Robust Large Language Models in RAG Systems

Arxiv

0+阅读 · 6月11日

Speech Enhancement Based on Drifting Models

Arxiv

0+阅读 · 6月6日

Absorbing Discrete Diffusion for Speech Enhancement

Arxiv

0+阅读 · 6月4日

Performance and Complexity Trade-off Optimization of Speech Models During Training

Arxiv

0+阅读 · 5月28日

Robust One-step Speech Enhancement via Consistency Distillation

Arxiv

0+阅读 · 5月15日

Distinguishing performance gains from learning when using generative AI

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

3+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

专知会员服务

31+阅读 · 2024年4月13日

深度视觉语音生成研究进展与展望

深度视觉语音生成研究进展与展望

专知会员服务

27+阅读 · 2024年4月12日

通过对比学习提高基于知识对话的鲁棒性

通过对比学习提高基于知识对话的鲁棒性

专知会员服务

23+阅读 · 2024年1月10日

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

专知会员服务

44+阅读 · 2022年5月26日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

语音信号处理：基本方法与前沿技术

语音信号处理：基本方法与前沿技术

AINLP

10+阅读 · 2020年10月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关论文

Intelligibility of Speech in Noise: Investigating Contribution of Magnitude and Phase Spectra

Arxiv

0+阅读 · 6月15日

Towards Robust Generative Speech Enhancement Using Vector Quantisation-Based Neural Audio Codec

Arxiv

0+阅读 · 6月15日

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

Generative AI for Managerial Decision-Making under Ambiguity and Sycophancy

Arxiv

0+阅读 · 6月11日

NOVA: NOise-aware Verbal Confidence CAlibration for Robust Large Language Models in RAG Systems

Arxiv

0+阅读 · 6月11日

Speech Enhancement Based on Drifting Models

Arxiv

0+阅读 · 6月6日

Absorbing Discrete Diffusion for Speech Enhancement

Arxiv

0+阅读 · 6月4日

Performance and Complexity Trade-off Optimization of Speech Models During Training

Arxiv

0+阅读 · 5月28日

Robust One-step Speech Enhancement via Consistency Distillation

Arxiv

0+阅读 · 5月15日

Distinguishing performance gains from learning when using generative AI

Arxiv

0+阅读 · 5月13日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员