Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index ($C_{50}$) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results. Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.


翻译:尽管对混响语音的研究已持续数十年,但由于大多数语料库缺乏每个文件的声学标注或为复现提供的文档有限,方法比较仍然困难。我们提出了RIR-Mega-Speech,这是一个约117.5小时的语料库,通过将LibriSpeech语句与来自RIR-Mega集合的大约5,000个模拟房间脉冲响应进行卷积而创建。每个文件都包含使用明确定义、可复现程序从源RIR计算得出的RT60、直达声与混响声比(DRR)和清晰度指数($C_{50}$)。我们还提供了用于重建数据集和复现所有评估结果的脚本。使用Whisper small模型在1,500对语句上进行测试,我们在纯净语音上测得5.20%的词错误率(95%置信区间:4.69--5.78),在混响版本上测得7.70%(7.04--8.35),对应的配对增加为2.50个百分点(2.06--2.98)。这代表了48%的相对性能下降。词错误率随RT60单调增加,随DRR单调下降,这与先前的感知研究结果一致。虽然混响损害识别这一核心发现已广为人知,但我们旨在为研究社区提供一个标准化的资源,其中声学条件透明且结果可被独立验证。该代码库包含适用于Windows和Linux环境的一键重建指令。

0
下载
关闭预览

相关内容

《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员