Automatic Chord Recognition (ACR) is constrained by the scarcity of aligned chord labels, as well-aligned annotations are costly to acquire. At the same time, open-weight pre-trained models are currently more accessible than their proprietary training data. In this work, we present a two-stage training pipeline that leverages pre-trained models together with unlabeled audio. The proposed method decouples training into two stages. In the first stage, we use a pre-trained BTC model as a teacher to generate pseudo-labels for over 1,000 hours of diverse unlabeled audio and train a student model solely on these pseudo-labels. In the second stage, the student is continually trained on ground-truth labels as they become available, with selective knowledge distillation (KD) from the teacher applied as a regularizer to prevent catastrophic forgetting of the representations learned in the first stage. In our experiments, two models (BTC, 2E1D) were used as students. In stage 1, using only pseudo-labels, the BTC student achieves over 98% of the teacher's performance, while the 2E1D model achieves about 96% across seven standard mir_eval metrics. After a single training run for both students in stage 2, the resulting BTC student model surpasses the traditional supervised learning baseline by 2.5% and the original pre-trained teacher model by 1.55% on average across all metrics. And the resulting 2E1D student model improves from the traditional supervised learning baseline by 3.79% on average and achieves almost the same performance as the teacher. Both cases show the large gains on rare chord qualities.


翻译:自动和弦识别(ACR)受限于对齐和弦标签的稀缺性,因为获取良好对齐的标注成本高昂。与此同时,开放权重的预训练模型目前比其专有训练数据更易获得。在本工作中,我们提出了一种两阶段训练流程,该流程利用预训练模型与未标注音频数据。所提方法将训练解耦为两个阶段。在第一阶段,我们使用预训练的BTC模型作为教师,为超过1000小时多样化的未标注音频生成伪标注,并仅在这些伪标注上训练学生模型。在第二阶段,当真实标注可用时,学生模型继续在其上进行训练,并采用选择性知识蒸馏(KD)作为正则化方法,以防止第一阶段学习到的表征发生灾难性遗忘。在我们的实验中,使用了两种模型(BTC、2E1D)作为学生模型。在第一阶段,仅使用伪标注时,BTC学生模型达到了教师模型性能的98%以上,而2E1D模型在七项标准mir_eval指标上均达到约96%。在第二阶段对两个学生模型进行单次训练后,所得的BTC学生模型在所有指标上平均超越传统监督学习基线2.5%,并平均超越原始预训练教师模型1.55%。而所得的2E1D学生模型则平均从传统监督学习基线提升了3.79%,并达到了与教师模型几乎相同的性能。两种情形均显示出在罕见和弦性质识别上的显著提升。

0
下载
关闭预览

相关内容

【CVPR2022】通过特征Mixing进行主动学习
专知会员服务
26+阅读 · 2022年3月15日
专知会员服务
10+阅读 · 2021年7月28日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
知识图谱的自动构建
DataFunTalk
58+阅读 · 2019年12月9日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
战争机器学习:数据生态系统构建(155页)
专知会员服务
5+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
5+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
3+阅读 · 4月14日
大规模作战行动中的战术作战评估(研究论文)
未来的海战无人自主系统
专知会员服务
3+阅读 · 4月14日
美军多域作战现状分析:战略、概念还是幻想?
无人机与反无人机系统(书籍)
专知会员服务
19+阅读 · 4月14日
美陆军2026条令:安全与机动支援
专知会员服务
9+阅读 · 4月14日
相关VIP内容
【CVPR2022】通过特征Mixing进行主动学习
专知会员服务
26+阅读 · 2022年3月15日
专知会员服务
10+阅读 · 2021年7月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员