"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most - 专知论文

会员服务 ·

0

转录 · 系统 · 关键信息 · 基准 · 基准测试 ·

"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most

翻译：“抱歉，我没听清”：语音模型如何错失关键信息

Kaitlyn Zhou,Martijn Bartelds,Federico Bianchi,James Zou

Despite speech recognition systems achieving low word error rates on standard benchmarks, they often fail on short, high-stakes utterances in real-world deployments. Here, we study this failure mode in a high-stakes task: the transcription of U.S. street names as spoken by U.S. participants. We evaluate 15 models from OpenAI, Deepgram, Google, and Microsoft on recordings from linguistically diverse U.S. speakers and find an average transcription error rate of 44%. We quantify the downstream impact of failed transcriptions by geographic locations and show that mis-transcriptions systematically cause errors for all speakers, but that routing distance errors are twice as large for non-English primary speakers compared to English primary speakers. To mitigate this harm, we introduce a synthetic data generation approach that produces diverse pronunciations of named entities using open-source text-to-speech models. Fine-tuning with less than 1,000 synthetic samples improves street name transcription accuracy by nearly 60% (relative to base models) for non-English primary speakers. Our results highlight a critical gap between benchmark performance and real-world reliability in speech systems and demonstrate a simple, scalable path to reducing high-stakes transcription errors.

翻译：尽管语音识别系统在标准基准测试中实现了较低的字错误率，但在实际部署中，它们往往在简短且高风险的话语上表现不佳。本文针对一项高风险任务——由美国参与者口述的美国街道名称转录——研究这种失败模式。我们评估了来自OpenAI、Deepgram、Google和Microsoft的15个模型，使用来自语言多样化的美国说话者的录音进行测试，发现平均转录错误率达到44%。我们按地理位置量化了转录失败对下游任务的影响，结果表明错误转录对所有说话者均会造成系统性误差，但对于非英语母语说话者，其导致的路径距离误差是英语母语说话者的两倍。为减轻此类损害，我们提出一种合成数据生成方法，利用开源文本转语音模型生成命名实体的多样化发音。使用少于1000个合成样本进行微调后，对于非英语母语说话者，其街道名称转录准确率相较于基础模型提升了近60%（相对提升）。我们的研究结果揭示了语音系统在基准测试表现与实际应用可靠性之间的关键差距，并展示了一条简单、可扩展的路径来减少高风险转录错误。

0

相关内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

专知会员服务

65+阅读 · 2023年12月20日

Nat. Mach. Intell. | 探索语言模型的缺点

Nat. Mach. Intell. | 探索语言模型的缺点

专知会员服务

36+阅读 · 2023年10月13日

关于大型语言模型需要知道的8件事

关于大型语言模型需要知道的8件事

专知会员服务

27+阅读 · 2023年4月3日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

量子位

10+阅读 · 2019年9月12日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

python语音识别终极指南

python语音识别终极指南

AI100

13+阅读 · 2018年4月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do

Arxiv

0+阅读 · 3月9日

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Arxiv

0+阅读 · 3月4日

Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning

Arxiv

0+阅读 · 2月19日

ErrorMap and ErrorAtlas: Charting the Failure Landscape of Large Language Models

Arxiv

0+阅读 · 2月17日

"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most

Arxiv

0+阅读 · 2月16日

Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation

Arxiv

0+阅读 · 2月7日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

Language Models Struggle to Use Representations Learned In-Context

Arxiv

0+阅读 · 2月4日

Understanding and Mitigating Errors of LLM-Generated RTL Code

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

1+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

专知会员服务

65+阅读 · 2023年12月20日

Nat. Mach. Intell. | 探索语言模型的缺点

Nat. Mach. Intell. | 探索语言模型的缺点

专知会员服务

36+阅读 · 2023年10月13日

关于大型语言模型需要知道的8件事

关于大型语言模型需要知道的8件事

专知会员服务

27+阅读 · 2023年4月3日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

量子位

10+阅读 · 2019年9月12日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

python语音识别终极指南

python语音识别终极指南

AI100

13+阅读 · 2018年4月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do

Arxiv

0+阅读 · 3月9日

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Arxiv

0+阅读 · 3月4日

Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning

Arxiv

0+阅读 · 2月19日

ErrorMap and ErrorAtlas: Charting the Failure Landscape of Large Language Models

Arxiv

0+阅读 · 2月17日

"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most

Arxiv

0+阅读 · 2月16日

Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation

Arxiv

0+阅读 · 2月7日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

Language Models Struggle to Use Representations Learned In-Context

Arxiv

0+阅读 · 2月4日

Understanding and Mitigating Errors of LLM-Generated RTL Code

Arxiv

0+阅读 · 2月1日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员