Weakly labeled datasets such as AudioSet have driven recent progress in audio tagging. However, annotation quality varies across sound classes. Labels may be incomplete, ambiguous, or unreliable, which introduces class-dependent supervision bias during optimisation. The issue becomes harder as real and generated audio are increasingly mixed in training, and generated samples do not always match their intended semantic labels. Prior work mainly addressed unreliable supervision from missing-positive labels, while this paper targets three other sources of unreliable supervision: spurious additions, misassignments between similar classes, and weakened label evidence. These effects introduce class-dependent optimisation bias that is not explicitly modeled by most existing methods. To bridge this gap, the paper proposes a Class-wise Supervision Unreliability (CSU) framework that controls supervision strength at the class level during training. CSU learns a separate unreliability parameter for each class and down-weights less reliable supervision without changing the model architecture or inference process. To support evaluations, this paper also introduces ESC-FreeGen50, a manually verified benchmark of 50 sound classes that combines real and generated audio. Experiments on controlled benchmarks and AudioSet show that CSU improves robustness across different architectures and different sources of supervision unreliability. The results indicate that explicit class-wise modeling of supervision unreliability is an effective and practical strategy for robust audio tagging under large-scale weakly labeled training. Code and data are available at: https://github.com/Yuanbo2020/CSU


翻译:弱标注数据集(如AudioSet)推动了音频标注领域的最新进展。然而,不同声音类别的标注质量参差不齐,标签可能存在不完整、歧义或不可靠的问题,从而在优化过程中引入类别相关的监督偏差。随着真实音频与生成音频在训练数据中日益混合,且生成样本并不总能匹配其预设语义标签,这一问题变得更加棘手。现有研究主要针对缺失正标签导致的不可靠监督,而本文则聚焦于另外三类不可靠监督源:虚假新增标签、相似类别间的错配标签以及弱化的标签证据。这些效应引入了现有方法通常未显式建模的类别相关优化偏差。为弥补这一空白,本文提出类别级监督不可靠性(CSU)框架,在训练过程中从类别层面控制监督强度。CSU为每个类别学习独立的不可靠性参数,在不改变模型架构或推理流程的情况下降低低可靠性监督的权重。为支持评估,本文还引入ESC-FreeGen50——一个包含50个声音类别、融合真实与生成音频的人工校验基准数据集。在受控基准与AudioSet上的实验表明,CSU能有效提升不同架构及多种监督不可靠性来源下的鲁棒性。结果表明,显式建模类别级监督不可靠性是大规模弱标注训练下实现鲁棒音频标注的一种高效且实用的策略。代码与数据可通过以下链接获取:https://github.com/Yuanbo2020/CSU

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
8+阅读 · 2025年12月20日
【CMU博士论文】鲁棒大规模音频/视觉学习,309页pdf
专知会员服务
26+阅读 · 2023年8月14日
【KDD2023】科技论文弱监督多标签分类
专知会员服务
21+阅读 · 2023年7月6日
专知会员服务
10+阅读 · 2021年7月28日
专知会员服务
38+阅读 · 2021年3月29日
专知会员服务
31+阅读 · 2020年12月7日
专知会员服务
47+阅读 · 2020年10月5日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
8+阅读 · 2025年12月20日
【CMU博士论文】鲁棒大规模音频/视觉学习,309页pdf
专知会员服务
26+阅读 · 2023年8月14日
【KDD2023】科技论文弱监督多标签分类
专知会员服务
21+阅读 · 2023年7月6日
专知会员服务
10+阅读 · 2021年7月28日
专知会员服务
38+阅读 · 2021年3月29日
专知会员服务
31+阅读 · 2020年12月7日
专知会员服务
47+阅读 · 2020年10月5日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员