Automatic Speech Recognition (ASR) holds immense potential to assist in clinical documentation and patient report generation, particularly in resource-constrained regions. However, deployment is currently hindered by a technical deadlock: a severe "Reality Gap" between laboratory performance and noisy, real-world clinical audio, coupled with strict privacy and resource constraints. Such adaptation is essential for clinical telephony systems, where patient speech is highly variable and transcription errors can directly impact downstream clinical workflows. We quantify this gap, showing that a robust multilingual model (IndicWav2Vec) degrades up to a 40.94% WER on rural clinical telephony speech from India, rendering it unusable. We demonstrate consistent improvements on these helpline interactions without transmitting raw patient data off-device via an on-device continual adaptation framework using Low-Rank Adaptation (LoRA). We conduct an investigative study of stabilization strategies, characterizing the trade-offs between data-driven and parameter-driven approaches. Our results demonstrate that multi-domain Experience Replay (ER) yields the primary performance gains, achieving a 17.1% relative improvement in target WER and reducing catastrophic forgetting by 55% compared to naive adaptation. Furthermore, we investigate a stabilized importance estimation strategy (Absolute Fisher) to ensure robust convergence against the high-variance gradients common in clinical telephony speech. Finally, we verify via a domain-specific spot check that acoustic adaptation is a fundamental prerequisite for usability in healthcare settings which cannot be bypassed by language models alone.


翻译:自动语音识别(ASR)在临床文档记录与患者报告生成方面具有巨大应用潜力,在资源受限地区尤为如此。然而,当前部署面临技术僵局:实验室性能与嘈杂真实临床音频之间存在显著的"现实鸿沟",同时受到严格的隐私与资源限制。这种自适应对于临床电话系统至关重要,因为患者语音存在高度变异性,转录错误可能直接影响下游临床工作流程。我们量化了该鸿沟,结果表明稳健的多语言模型(IndicWav2Vec)在印度乡村临床电话语音上的词错误率(WER)恶化达40.94%,导致其无法实际使用。我们通过基于低秩自适应(LoRA)的设备端持续自适应框架,在不传输原始患者数据至设备外的条件下,在这些求助热线交互数据上实现了持续改进。我们系统研究了稳定化策略,揭示了数据驱动与参数驱动方法间的权衡关系。实验结果表明,多领域经验回放(ER)带来主要性能提升,相较于朴素自适应方法,在目标WER上获得17.1%的相对改善,并将灾难性遗忘降低55%。此外,我们研究了基于绝对费舍尔信息的稳定化重要性估计策略,以应对临床电话语音中常见的高方差梯度问题,确保稳健收敛。最后,通过领域特异性抽查验证:声学自适应是医疗场景可用性的根本前提,仅靠语言模型无法绕过这一要求。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年8月20日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员