Self-supervised learning (SSL) on large-scale datasets like AudioSet has become the dominant paradigm for audio representation learning. While the continuous influx of new, unlabeled audio presents an opportunity to enrich these static representations, a naive approach is to retrain the model from scratch using all available data. However, this method is computationally prohibitive and discards the valuable knowledge embedded in the previously trained model weights. To address this inefficiency, we propose SONAR (Self-distilled cONtinual pre-training for domain adaptive Audio Representation), a continual pre-training framework built upon BEATs. SONAR effectively adapts to new domains while mitigating catastrophic forgetting by tackling three key challenges: implementing a joint sampling strategy for new and prior data, applying regularization to balance specificity and generality, and dynamically expanding the tokenizer codebook for novel acoustic patterns. Experiments across four distinct domains demonstrate that our method achieves both high adaptability and robust resistance to forgetting.


翻译:基于大规模数据集(如AudioSet)的自监督学习已成为音频表征学习的主流范式。尽管持续涌入的新未标注音频数据为丰富这些静态表征提供了机遇,但一种朴素的方法是使用所有可用数据从头重新训练模型。然而,这种方法计算成本过高,且丢弃了先前训练模型权重中蕴含的宝贵知识。为解决这一低效问题,我们提出了SONAR(面向领域自适应音频表征的自蒸馏持续预训练),这是一个基于BEATs构建的持续预训练框架。SONAR通过应对三个关键挑战,在有效适应新领域的同时缓解灾难性遗忘:实施新旧数据的联合采样策略,应用正则化以平衡特异性和通用性,以及为新颖声学模式动态扩展分词器码本。在四个不同领域的实验表明,我们的方法同时实现了高适应性和强大的抗遗忘能力。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
【博士论文】自监督学习视频表示
专知会员服务
26+阅读 · 2024年2月5日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
53+阅读 · 2022年8月31日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
17+阅读 · 2021年3月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员