Passive acoustic monitoring enables large-scale biodiversity assessment, but reliable classification of bioacoustic sounds requires not only high accuracy but also well-calibrated uncertainty estimates to ground decision-making. In bioacoustics, calibration is challenged by overlapping vocalisations, long-tailed species distributions, and distribution shifts between training and deployment data. The calibration of multi-label deep learning classifiers within the domain of bioacoustics has not yet been assessed. We systematically benchmark the calibration of four state-of-the-art multi-label bird sound classifiers on the BirdSet benchmark, evaluating both global, per-dataset and per-class calibration using threshold-free calibration metrics (ECE, MCS) alongside discrimination metrics (cmAP). Model calibration varies significantly across datasets and classes. While Perch v2 and ConvNeXt$_{BS}$ show better global calibration, results vary between datasets. Both models indicate consistent underconfidence, while AudioProtoPNet and BirdMAE are mostly overconfident. Surprisingly, calibration seems to be better for less frequent classes. Using simple post hoc calibration methods we demonstrate a straightforward way to improve calibration. A small labelled calibration set is sufficient to significantly improve calibration with Platt scaling, while global calibration parameters suffer from dataset variability. Our findings highlight the importance of evaluating and improving uncertainty calibration in bioacoustic classifiers.


翻译:被动声学监测能够实现大规模生物多样性评估,但生物声学声音的可靠分类不仅需要高精度,还需要经过良好校准的不确定性估计以支撑决策。在生物声学领域,校准面临重叠发声、长尾物种分布以及训练与部署数据间分布偏移等挑战。目前尚未对生物声学领域内多标签深度学习分类器的校准性能进行评估。我们在BirdSet基准上系统性地评估了四种先进多标签鸟类声音分类器的校准性能,使用无需阈值的校准指标(ECE、MCS)与区分度指标(cmAP)共同评估了全局、每数据集及每类别的校准表现。模型校准在不同数据集和类别间存在显著差异。虽然Perch v2和ConvNeXt$_{BS}$展现出更优的全局校准性能,但其结果在不同数据集间有所波动。这两个模型均呈现一致性的欠自信状态,而AudioProtoPNet和BirdMAE则主要表现为过度自信。值得注意的是,校准效果在低频类别中反而更好。通过应用简单的后处理校准方法,我们展示了一种直接改进校准性能的途径。使用少量带标签的校准集配合Platt缩放即可显著提升校准效果,而全局校准参数则受数据集变异性影响。我们的研究结果强调了评估和改进生物声学分类器不确定性校准的重要性。

0
下载
关闭预览

相关内容

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
【CVPR2023】探索和利用不确定性的不完整多视角分类
专知会员服务
29+阅读 · 2023年4月12日
专知会员服务
26+阅读 · 2021年7月17日
专知会员服务
31+阅读 · 2020年12月7日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员