Deep learning models define the state-of-the-art in Automatic Drum Transcription (ADT), yet their performance is contingent upon large-scale, paired audio-MIDI datasets, which are scarce. Existing workarounds that use synthetic data often introduce a significant domain gap, as they typically rely on low-fidelity SoundFont libraries that lack acoustic diversity. While high-quality one-shot samples offer a better alternative, they are not available in a standardized, large-scale format suitable for training. This paper introduces a new paradigm for ADT that circumvents the need for paired audio-MIDI training data. Our primary contribution is a semi-supervised method to automatically curate a large and diverse corpus of one-shot drum samples from unlabeled audio sources. We then use this corpus to synthesize a high-quality dataset from MIDI files alone, which we use to train a sequence-to-sequence transcription model. We evaluate our model on the ENST and MDB test sets, where it achieves new state-of-the-art results, significantly outperforming both fully supervised methods and previous synthetic-data approaches. The code for reproducing our experiments is publicly available at https://github.com/pier-maker92/ADT_STR


翻译:深度学习模型定义了自动鼓谱转录(ADT)领域的最先进水平,但其性能依赖于大规模、成对的音频-MIDI数据集,而这些数据十分稀缺。现有使用合成数据的变通方法通常引入显著的领域差距,因为它们通常依赖于缺乏声学多样性的低保真SoundFont库。虽然高质量的单次采样提供了更好的替代方案,但它们没有以适合训练的标准化、大规模格式提供。本文提出了一种新的ADT范式,绕过了对成对音频-MIDI训练数据的需求。我们的主要贡献是一种半监督方法,用于从无标签的音频源中自动整理一个大规模且多样化的单次鼓采样语料库。然后,我们使用该语料库仅从MIDI文件合成一个高质量的数据集,并用其训练一个序列到序列的转录模型。我们在ENST和MDB测试集上评估了我们的模型,该模型取得了新的最先进结果,显著优于完全监督的方法和先前的合成数据方法。用于复现我们实验的代码公开在 https://github.com/pier-maker92/ADT_STR。

0
下载
关闭预览

相关内容

【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
一文看懂AutoEncoder模型演进图谱
AINLP
12+阅读 · 2019年6月17日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员