The CHiME-7 and 8 distant speech recognition (DASR) challenges focus on multi-channel, generalizable, joint automatic speech recognition (ASR) and diarization of conversational speech. With participation from 9 teams submitting 32 diverse systems, these challenges have contributed to state-of-the-art research in the field. This paper outlines the challenges' design, evaluation metrics, datasets, and baseline systems while analyzing key trends from participant submissions. From this analysis it emerges that: 1) Most participants use end-to-end (e2e) ASR systems, whereas hybrid systems were prevalent in previous CHiME challenges. This transition is mainly due to the availability of robust large-scale pre-trained models, which lowers the data burden for e2e-ASR. 2) Despite recent advances in neural speech separation and enhancement (SSE), all teams still heavily rely on guided source separation, suggesting that current neural SSE techniques are still unable to reliably deal with complex scenarios and different recording setups. 3) All best systems employ diarization refinement via target-speaker diarization techniques. Accurate speaker counting in the first diarization pass is thus crucial to avoid compounding errors and CHiME-8 DASR participants especially focused on this part. 4) Downstream evaluation via meeting summarization can correlate weakly with transcription quality due to the remarkable effectiveness of large-language models in handling errors. On the NOTSOFAR-1 scenario, even systems with over 50% time-constrained minimum permutation WER can perform roughly on par with the most effective ones (around 11%). 5) Despite recent progress, accurately transcribing spontaneous speech in challenging acoustic environments remains difficult, even when using computationally intensive system ensembles.


翻译:CHiME-7与8远场语音识别(DASR)挑战赛聚焦于多通道、可泛化的对话语音联合自动语音识别(ASR)与说话人日志任务。本次挑战赛共有9支团队提交了32套多样化系统,推动了该领域的前沿研究进展。本文系统阐述了挑战赛的设计框架、评估指标、数据集与基线系统,并深入分析了参赛方案的关键趋势。研究发现:1)多数参赛者采用端到端(e2e)ASR系统,而此前CHiME挑战赛中以混合系统为主。这一转变主要得益于鲁棒性大规模预训练模型的普及,降低了端到端ASR的数据需求。2)尽管神经语音分离与增强(SSE)技术近期取得进展,所有团队仍高度依赖引导式源分离方法,表明当前神经SSE技术尚难以可靠处理复杂场景与多样化录音配置。3)所有最优系统均通过目标说话人日志技术进行说话人日志优化,因此初始日志阶段的准确说话人计数对避免误差累积至关重要,CHiME-8 DASR参赛者尤其关注该环节。4)通过会议摘要任务进行下游评估时,由于大语言模型对识别误差的强容错能力,其与转录质量的相关性较弱。在NOTSOFAR-1场景中,即使时间约束最小置换词错误率超过50%的系统,其摘要性能仍与最优系统(约11%错误率)大致相当。5)尽管技术持续进步,在复杂声学环境中准确转录自发语音仍具挑战性,即使采用计算密集型系统集成方案亦难完全克服。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
2+阅读 · 49分钟前
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
13+阅读 · 4月25日
多智能体协作机制
专知会员服务
12+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
Top
微信扫码咨询专知VIP会员