Randomized smoothing (RS) certifies robustness in the vector space where Gaussian noise is added. In audio classification, this space is often not uniquely defined as standard pipelines normalize, range-control, and transform waveforms into log-mel or other spectral features. We show that direct RS is therefore under-specified unless the certified object and preprocessing policy are explicit. On two audio benchmarks, keyword spotting and environmental-sound classification, we study waveform, feature-space, and post-processed smoothing. Our diagnostics show why representation-aware reporting is necessary: at the same smoothing level $σ=0.0025$, the two datasets share the same median raw radius $.007996$, but different waveform energies yield different SNR-equivalent scales ($83.98$ vs. $90.97$ dB); log-mel smoothing gives higher positive-radius certified accuracy on environmental sounds ($68.42\%$ vs. $65.53\%$), certifying more examples with nonzero radius but over features rather than waveforms; and clipping or peak normalization changes the effective perturbation norm by roughly $230$--$351\times$. We therefore recommend that audio RS studies choose and report the task-specific certified object and perturbation model, including the perturbation location, gain policy, raw radius, and any post-noise geometry changes.


翻译:随机平滑通过在高斯噪声添加的向量空间中认证模型的鲁棒性。在音频分类中,由于标准流程会对波形进行归一化、动态范围控制并转换为对数梅尔谱或其他频谱特征,该空间往往并非唯一确定。我们证明,除非明确认证对象和预处理策略,否则直接应用随机平滑会导致定义不明确。以关键词识别和环境声音分类两个音频基准为例,我们研究了波形域、特征域和后处理平滑的认证方法。诊断结果表明,必须采用考虑表示特征的报告方式:在相同平滑水平σ=0.0025下,两个数据集的中位原始半径同为0.007996,但不同波形能量导致信噪比等效尺度存在差异(83.98 dB vs. 90.97 dB);对数梅尔平滑对环境声音的正半径认证准确率更高(68.42% vs. 65.53%),即虽能对更多样本进行非零半径认证,但认证对象是特征而非波形;此外,裁剪或峰值归一化会改变有效扰动范数约230–351倍。因此,我们建议音频随机平滑研究需明确选取并报告任务特定的认证对象及扰动模型,包括扰动位置、增益策略、原始半径及后噪声几何变换等要素。

0
下载
关闭预览

相关内容

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
【CVPR2023】带有噪声标签的孪生对比学习
专知会员服务
33+阅读 · 2023年3月16日
去噪扩散概率模型,46页ppt
专知会员服务
63+阅读 · 2023年1月4日
【CVPR2022】带噪声标签的少样本学习
专知会员服务
42+阅读 · 2022年4月15日
【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法
专知会员服务
26+阅读 · 2021年12月27日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 53分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关资讯
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员