Training-Free Intelligibility-Guided Observation Addition for Noisy ASR - 专知论文

会员服务 ·

0

语音识别 · 识别 · 噪声 · 语音可懂度 · 自动语音识别 ·

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR

翻译：无需训练的语音可懂度引导观测加噪方法用于噪声环境下的自动语音识别

Haoyang Li,Changsong Liu,Wei Rao,Hao Shi,Sakriani Sakti,Eng Siong Chng

from arxiv, Accepted to Interspeech2026

Automatic speech recognition (ASR) degrades severely in noisy environments. Although speech enhancement (SE) front-ends effectively suppress background noise, they often introduce artifacts that harm recognition. Observation addition (OA) addressed this issue by fusing noisy and SE enhanced speech, improving recognition without modifying the parameters of the SE or ASR models. This paper proposes an intelligibility-guided OA method, where fusion weights are derived from intelligibility estimates obtained directly from the backend ASR. Unlike prior OA methods based on trained neural predictors, the proposed method is training-free, reducing complexity and enhances generalization. Extensive experiments across diverse SE-ASR combinations and datasets demonstrate strong robustness and improvements over existing OA baselines. Additional analyses of intelligibility-guided switching-based alternatives and frame versus utterance-level OA further validate the proposed design.

翻译：自动语音识别（ASR）在噪声环境下性能严重下降。尽管语音增强（SE）前端能有效抑制背景噪声，但常常引入损害识别性能的伪像。观测加噪（OA）通过融合含噪语音与经SE增强的语音来解决此问题，无需修改SE或ASR模型参数即可提升识别效果。本文提出一种可懂度引导的OA方法，其融合权重直接源自后端ASR获得的语音可懂度估计值。与以往基于训练神经网络预测器的OA方法不同，本方法无需训练，降低了复杂度并提升了泛化能力。在多样的SE-ASR组合与数据集上的大量实验表明，该方法具有强鲁棒性，且优于现有OA基线方法。基于可懂度引导的切换式替代方案及帧级与话语级OA的进一步分析，验证了所提设计的有效性。

0

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

专知会员服务

12+阅读 · 2025年10月15日

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

专知会员服务

11+阅读 · 2025年4月15日

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

专知会员服务

31+阅读 · 2024年4月13日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

图像去噪方法概述

专知会员服务

43+阅读 · 2021年8月30日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

专知会员服务

41+阅读 · 2020年5月13日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

python语音识别终极指南

python语音识别终极指南

AI100

13+阅读 · 2018年4月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

非线性加权观测融合滤波算法及其渐近最优性研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

Arxiv

0+阅读 · 6月16日

Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

Arxiv

0+阅读 · 6月12日

Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling

Arxiv

0+阅读 · 6月9日

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

Arxiv

0+阅读 · 6月8日

Few-Shot Synthetic Accented Speech for ASR Fine-Tuning: What Helps and When?

Arxiv

0+阅读 · 6月5日

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition

Arxiv

0+阅读 · 6月4日

Efficient ASR Training with Conversations that Never Happened

Arxiv

0+阅读 · 6月2日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 5月27日

Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia

Arxiv

0+阅读 · 5月27日

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

语音可懂度

自动语音识别

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

专知会员服务

12+阅读 · 2025年10月15日

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

专知会员服务

11+阅读 · 2025年4月15日

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

【剑桥大学博士论文】主动学习和半监督学习在语音识别中的应用，238页pdf

专知会员服务

31+阅读 · 2024年4月13日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

图像去噪方法概述

专知会员服务

43+阅读 · 2021年8月30日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

专知会员服务

41+阅读 · 2020年5月13日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

python语音识别终极指南

python语音识别终极指南

AI100

13+阅读 · 2018年4月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

相关论文

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

Arxiv

0+阅读 · 6月16日

Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

Arxiv

0+阅读 · 6月12日

Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling

Arxiv

0+阅读 · 6月9日

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

Arxiv

0+阅读 · 6月8日

Few-Shot Synthetic Accented Speech for ASR Fine-Tuning: What Helps and When?

Arxiv

0+阅读 · 6月5日

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition

Arxiv

0+阅读 · 6月4日

Efficient ASR Training with Conversations that Never Happened

Arxiv

0+阅读 · 6月2日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 5月27日

Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia

Arxiv

0+阅读 · 5月27日

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Arxiv

0+阅读 · 5月19日

相关基金

非线性加权观测融合滤波算法及其渐近最优性研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员