Many bioacoustics, neuroscience, and linguistics research utilize birdsongs as proxy models to acquire knowledge in diverse areas. Developing models generally requires precisely annotated data at the level of syllables. Hence, automated and data-efficient methods that reduce annotation costs are in demand. This work presents a lightweight, yet performant neural network architecture for birdsong annotation called Residual-MLP-RNN. Then, it presents a robust three-stage training pipeline for developing reliable deep birdsong syllable detectors with minimal expert labor. The first stage is self-supervised learning from unlabeled data. Two of the most successful pretraining paradigms are explored, namely, masked prediction and online clustering. The second stage is supervised training with effective data augmentations to create a robust model for frame-level syllable detection. The third stage is semi-supervised post-training, which leverages the unlabeled data again. However, unlike the initial phase, this time it is aligned with the downstream task. The performance of this data-efficient approach is demonstrated for the complex song of the Canary in extreme label-scarcity scenarios. Canary has one of the most difficult songs to annotate, which implicitly validates the method for other birds. Finally, the potential of self-supervised embeddings is assessed for linear probing and unsupervised birdsong analysis.


翻译:许多生物声学、神经科学和语言学领域的研究利用鸟鸣作为代理模型,以获取不同领域的知识。开发此类模型通常需要在音节级别进行精确标注的数据。因此,需要能够降低标注成本的自动化且数据高效的方法。本研究提出了一种轻量级但性能优异的神经网络架构,称为Residual-MLP-RNN,用于鸟鸣标注。随后,本文提出了一种鲁棒的三阶段训练流程,旨在以最少的专家劳动开发可靠的深度鸟鸣音节检测器。第一阶段是从无标注数据中进行自监督学习,探索了两种最成功的预训练范式,即掩码预测和在线聚类。第二阶段是结合有效数据增强的监督训练,以构建用于帧级音节检测的鲁棒模型。第三阶段是半监督后训练,再次利用无标注数据;但与初始阶段不同,此次训练与下游任务对齐。本研究在极端标签稀缺场景下,以金丝雀的复杂鸣唱为例,展示了这种数据高效方法的性能。金丝雀的鸣唱是最难标注的鸟类之一,这间接验证了该方法对其他鸟类的适用性。最后,评估了自监督嵌入在线性探测和无监督鸟鸣分析中的潜力。

0
下载
关闭预览

相关内容

【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
136+阅读 · 2022年10月4日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
53+阅读 · 2022年8月31日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
3+阅读 · 4月25日
多智能体协作机制
专知会员服务
3+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
6+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
7+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
10+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
136+阅读 · 2022年10月4日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
53+阅读 · 2022年8月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员