WER 的盲区：评估 ASR 错误如何扭曲面向患者对话中的临床理解 (WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue) - 专知论文

会员服务 ·

0

语音识别 · 识别 · 错误率 · 转录 · 标准基 ·

WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue

翻译：WER 的盲区：评估 ASR 错误如何扭曲面向患者对话中的临床理解

Zachary Ellis,Jared Joselowitz,Yash Deo,Yajie He,Anna Kalygina,Aisling Higham,Mana Rahimzadeh,Yan Jia,Ibrahim Habli,Ernest Lim

from arxiv, Published as an Oral at IWSDS 2026

As Automatic Speech Recognition (ASR) is increasingly deployed in clinical dialogue, standard evaluations still rely heavily on Word Error Rate (WER). This paper challenges that standard, investigating whether WER or other common metrics correlate with the clinical impact of transcription errors. We establish a gold-standard benchmark by having expert clinicians compare ground-truth utterances to their ASR-generated counterparts, labeling the clinical impact of any discrepancies found in two distinct doctor-patient dialogue datasets. Our analysis reveals that WER and a comprehensive suite of existing metrics correlate poorly with the clinician-assigned risk labels (No, Minimal, or Significant Impact). To bridge this evaluation gap, we introduce an LLM-as-a-Judge, programmatically optimized using GEPA through DSPy to replicate expert clinical assessment. The optimized judge (Gemini-2.5-Pro) achieves human-comparable performance, obtaining 90% accuracy and a strong Cohen's kappa of 0.816. This work provides a validated, automated framework for moving ASR evaluation beyond simple textual fidelity to a necessary, scalable assessment of safety in clinical dialogue.

翻译：随着自动语音识别（ASR）在临床对话中日益普及，标准评估仍然严重依赖词错误率（WER）。本文挑战这一标准，探究 WER 或其他常见指标是否与转录错误的临床影响相关。我们通过让临床专家比较真实话语与其 ASR 生成版本，在两个不同的医患对话数据集中标记任何差异的临床影响，从而建立了一个黄金标准基准。我们的分析表明，WER 以及一系列现有综合指标与临床医生分配的风险标签（无影响、最小影响或显著影响）相关性很差。为了弥合这一评估差距，我们引入了 LLM-as-a-Judge 方法，通过 DSPy 使用 GEPA 进行程序化优化，以复现专家临床评估。优化后的评判模型（Gemini-2.5-Pro）达到了与人类相当的性能，获得了 90% 的准确率和 0.816 的强 Cohen's kappa 系数。这项工作提供了一个经过验证的自动化框架，将 ASR 评估从简单的文本保真度推进到对临床对话安全性必要且可扩展的评估。

0

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

专知会员服务

11+阅读 · 2025年5月6日

AI在医疗中的安全挑战

AI在医疗中的安全挑战

专知会员服务

19+阅读 · 2024年10月5日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

iScience｜不确定性量化问题：我们可以相信AI在药物发现中的应用吗？

iScience｜不确定性量化问题：我们可以相信AI在药物发现中的应用吗？

专知会员服务

14+阅读 · 2022年10月24日

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

专知会员服务

18+阅读 · 2022年5月14日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

专知会员服务

54+阅读 · 2021年2月20日

转化率预估(pCVR)系列--延迟预估模型（上篇）

转化率预估(pCVR)系列--延迟预估模型（上篇）

AINLP

31+阅读 · 2020年6月1日

为什么说深耕AI领域绕不开知识图谱？

为什么说深耕AI领域绕不开知识图谱？

人工智能学家

33+阅读 · 2019年5月30日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

产业智能官

11+阅读 · 2018年1月6日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

NLP专题论文解读：从Chatbot、NER到QA系统...

NLP专题论文解读：从Chatbot、NER到QA系统...

数据派THU

27+阅读 · 2017年11月12日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于缺失数据分析和信息几何理论的SAR图像自动目标识别研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

楔前叶与听觉皮层间抑制连接缺陷对精神分裂症听觉加工的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Towards explainable reference-free speech intelligibility evaluation of people with pathological speech

Arxiv

0+阅读 · 2月16日

Towards explainable reference-free speech intelligibility evaluation of people with pathological speech

Arxiv

0+阅读 · 2月13日

"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most

Arxiv

0+阅读 · 2月12日

Dialect Matters: Cross-Lingual ASR Transfer for Low-Resource Indic Language Varieties

Arxiv

0+阅读 · 2月11日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Linguistically Informed Evaluation of Multilingual ASR for African Languages

Arxiv

0+阅读 · 2月4日

Towards Robust Dysarthric Speech Recognition: LLM-Agent Post-ASR Correction Beyond WER

Arxiv

0+阅读 · 1月29日

SW-ASR: A Context-Aware Hybrid ASR Pipeline for Robust Single Word Speech Recognition

Arxiv

0+阅读 · 1月28日

Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

Arxiv

0+阅读 · 1月16日

Navigating the Reality Gap: Privacy-Preserving On-Device Continual Adaptation of ASR for Clinical Telephony

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

专知会员服务

11+阅读 · 2025年5月6日

AI在医疗中的安全挑战

AI在医疗中的安全挑战

专知会员服务

19+阅读 · 2024年10月5日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

iScience｜不确定性量化问题：我们可以相信AI在药物发现中的应用吗？

iScience｜不确定性量化问题：我们可以相信AI在药物发现中的应用吗？

专知会员服务

14+阅读 · 2022年10月24日

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

【AI+军事】附论文+PPT《使用SocialXR来测量社会认知表现，以解决与部署和创伤后生活事件有关的孤立问题》

专知会员服务

18+阅读 · 2022年5月14日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

专知会员服务

54+阅读 · 2021年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

转化率预估(pCVR)系列--延迟预估模型（上篇）

转化率预估(pCVR)系列--延迟预估模型（上篇）

AINLP

31+阅读 · 2020年6月1日

为什么说深耕AI领域绕不开知识图谱？

为什么说深耕AI领域绕不开知识图谱？

人工智能学家

33+阅读 · 2019年5月30日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

产业智能官

11+阅读 · 2018年1月6日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

NLP专题论文解读：从Chatbot、NER到QA系统...

NLP专题论文解读：从Chatbot、NER到QA系统...

数据派THU

27+阅读 · 2017年11月12日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

相关论文

Towards explainable reference-free speech intelligibility evaluation of people with pathological speech

Arxiv

0+阅读 · 2月16日

Towards explainable reference-free speech intelligibility evaluation of people with pathological speech

Arxiv

0+阅读 · 2月13日

"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most

Arxiv

0+阅读 · 2月12日

Dialect Matters: Cross-Lingual ASR Transfer for Low-Resource Indic Language Varieties

Arxiv

0+阅读 · 2月11日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Linguistically Informed Evaluation of Multilingual ASR for African Languages

Arxiv

0+阅读 · 2月4日

Towards Robust Dysarthric Speech Recognition: LLM-Agent Post-ASR Correction Beyond WER

Arxiv

0+阅读 · 1月29日

SW-ASR: A Context-Aware Hybrid ASR Pipeline for Robust Single Word Speech Recognition

Arxiv

0+阅读 · 1月28日

Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

Arxiv

0+阅读 · 1月16日

Navigating the Reality Gap: Privacy-Preserving On-Device Continual Adaptation of ASR for Clinical Telephony

Arxiv

0+阅读 · 1月14日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于缺失数据分析和信息几何理论的SAR图像自动目标识别研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

楔前叶与听觉皮层间抑制连接缺陷对精神分裂症听觉加工的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员