Automatic Chord Recognition (ACR) is constrained by the scarcity of aligned chord labels, as well-aligned annotations are costly to acquire. At the same time, open-weight pre-trained models are currently more accessible than their proprietary training data. In this work, we present a two-stage training pipeline that leverages pre-trained models together with unlabeled audio. The proposed method decouples training into two stages. In the first stage, we use a pre-trained BTC model as a teacher to generate pseudo-labels for over 1,000 hours of diverse unlabeled audio and train a student model solely on these pseudo-labels. In the second stage, the student is continually trained on ground-truth labels as they become available. To prevent catastrophic forgetting of the representations learned in the first stage, we apply selective knowledge distillation (KD) from the teacher as a regularizer. In our experiments, two models (BTC, 2E1D) were used as students. In stage 1, using only pseudo-labels, the BTC student achieves over 98% of the teacher's performance, while the 2E1D model achieves about 96% across seven standard mir_eval metrics. After a single training run for both students in stage 2, the resulting BTC student model surpasses the traditional supervised learning baseline by 2.5% and the original pre-trained teacher model by 1.55% on average across all metrics. The resulting 2E1D student model improves over the traditional supervised learning baseline by 2.67% on average and achieves almost the same performance as the teacher. Both cases show large gains on rare chord qualities.


翻译:自动和弦识别(ACR)受限于对齐和弦标注的稀缺性——良好对齐的注释获取成本高昂。与此同时,开放权重的预训练模型目前比其专有训练数据更易获取。本文提出一种两阶段训练流程,利用预训练模型与无标签音频数据。所提方法将训练解耦为两个阶段:第一阶段,使用预训练的BTC模型作为教师,为超过1000小时多样化的无标签音频生成伪标签,并仅基于这些伪标签训练学生模型;第二阶段,当真实标签可用时,学生模型继续在其上进行训练。为防止第一阶段所学表征的灾难性遗忘,我们从教师模型中应用选择性知识蒸馏(KD)作为正则化项。实验中,采用两个模型(BTC、2E1D)作为学生模型。在第一阶段,仅使用伪标签,BTC学生在七项标准mir_eval指标上达到教师模型性能的98%以上,而2E1D模型达到约96%。在第二阶段对两个学生模型进行单次训练后,所得BTC学生模型在所有指标上平均超越传统监督学习基线2.5%,超越原始预训练教师模型1.55%;所得2E1D学生模型平均超越传统监督学习基线2.67%,并达到与教师模型几乎相同的性能。两种情形在稀有和弦品质上均显示大幅提升。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
【CVPR2022】通过特征Mixing进行主动学习
专知会员服务
26+阅读 · 2022年3月15日
专知会员服务
10+阅读 · 2021年7月28日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
知识图谱的自动构建
DataFunTalk
58+阅读 · 2019年12月9日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月3日
Arxiv
0+阅读 · 3月20日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
【CVPR2022】通过特征Mixing进行主动学习
专知会员服务
26+阅读 · 2022年3月15日
专知会员服务
10+阅读 · 2021年7月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员