Representation Matters in Randomized Smoothing for Audio Classification - 专知论文

会员服务 ·

0

平滑 · 表示 · 扰动 · 噪声 · 归一化 ·

Representation Matters in Randomized Smoothing for Audio Classification

翻译：随机平滑中的表示问题对音频分类认证的影响

Jong-Ik Park,Shreyas Chaudhari,José M. F. Moura,Carlee Joe-Wong

Randomized smoothing (RS) certifies robustness in the vector space where Gaussian noise is added. In audio classification, this space is often not uniquely defined as standard pipelines normalize, range-control, and transform waveforms into log-mel or other spectral features. We show that direct RS is therefore under-specified unless the certified object and preprocessing policy are explicit. On two audio benchmarks, keyword spotting and environmental-sound classification, we study waveform, feature-space, and post-processed smoothing. Our diagnostics show why representation-aware reporting is necessary: at the same smoothing level $σ=0.0025$, the two datasets share the same median raw radius $.007996$, but different waveform energies yield different SNR-equivalent scales ($83.98$ vs. $90.97$ dB); log-mel smoothing gives higher positive-radius certified accuracy on environmental sounds ($68.42\%$ vs. $65.53\%$), certifying more examples with nonzero radius but over features rather than waveforms; and clipping or peak normalization changes the effective perturbation norm by roughly $230$--$351\times$. We therefore recommend that audio RS studies choose and report the task-specific certified object and perturbation model, including the perturbation location, gain policy, raw radius, and any post-noise geometry changes.

翻译：随机平滑通过在高斯噪声添加的向量空间中认证模型的鲁棒性。在音频分类中，由于标准流程会对波形进行归一化、动态范围控制并转换为对数梅尔谱或其他频谱特征，该空间往往并非唯一确定。我们证明，除非明确认证对象和预处理策略，否则直接应用随机平滑会导致定义不明确。以关键词识别和环境声音分类两个音频基准为例，我们研究了波形域、特征域和后处理平滑的认证方法。诊断结果表明，必须采用考虑表示特征的报告方式：在相同平滑水平σ=0.0025下，两个数据集的中位原始半径同为0.007996，但不同波形能量导致信噪比等效尺度存在差异（83.98 dB vs. 90.97 dB）；对数梅尔平滑对环境声音的正半径认证准确率更高（68.42% vs. 65.53%），即虽能对更多样本进行非零半径认证，但认证对象是特征而非波形；此外，裁剪或峰值归一化会改变有效扰动范数约230–351倍。因此，我们建议音频随机平滑研究需明确选取并报告任务特定的认证对象及扰动模型，包括扰动位置、增益策略、原始半径及后噪声几何变换等要素。

0

相关内容

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

专知会员服务

11+阅读 · 5月2日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【CVPR2023】带有噪声标签的孪生对比学习

【CVPR2023】带有噪声标签的孪生对比学习

专知会员服务

33+阅读 · 2023年3月16日

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

【CVPR2022】带噪声标签的少样本学习

【CVPR2022】带噪声标签的少样本学习

专知会员服务

42+阅读 · 2022年4月15日

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

专知会员服务

26+阅读 · 2021年12月27日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

24+阅读 · 2020年4月12日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

随机扰动下气动弹性系统失稳机理的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶时滞随机微分方程中的随机共振现象与行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

受Mittag-Lef？er噪声激励的广义朗之万方程的随机共振研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性调频信号激励双稳系统的随机共振理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

Arxiv

0+阅读 · 6月14日

When Recommendation Denoising Meets Popularity Bias: Understanding and Mitigating Their Interaction

Arxiv

0+阅读 · 6月12日

Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry

Arxiv

0+阅读 · 6月10日

AudioProcessBench: Benchmark for Identifying Process Errors in Audio-Grounded Reasoning

Arxiv

0+阅读 · 6月7日

Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification

Arxiv

0+阅读 · 6月3日

Perturbation Effects on Accuracy and Fairness among Similar Individuals

Arxiv

0+阅读 · 5月30日

On the reconstruction of bandlimited signals from random samples quantized via noise-shaping

Arxiv

0+阅读 · 5月20日

Semantic Smoothing for Language Models via Distribution Estimation and Embeddings

Arxiv

0+阅读 · 5月8日

Stochastic Smoothed Particle Hydrodynamics for Stochastic Mechanics Problems

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 49分钟前

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 51分钟前

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 53分钟前

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

2+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

3+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

2+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

2+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

2+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

2+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

1+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

专知会员服务

11+阅读 · 5月2日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【CVPR2023】带有噪声标签的孪生对比学习

【CVPR2023】带有噪声标签的孪生对比学习

专知会员服务

33+阅读 · 2023年3月16日

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

【CVPR2022】带噪声标签的少样本学习

【CVPR2022】带噪声标签的少样本学习

专知会员服务

42+阅读 · 2022年4月15日

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

专知会员服务

26+阅读 · 2021年12月27日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

【CVPR2020】从领域适应的角度重新思考长尾视觉识别的类平衡方法

专知会员服务

24+阅读 · 2020年4月12日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

相关论文

Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

Arxiv

0+阅读 · 6月14日

When Recommendation Denoising Meets Popularity Bias: Understanding and Mitigating Their Interaction

Arxiv

0+阅读 · 6月12日

Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry

Arxiv

0+阅读 · 6月10日

AudioProcessBench: Benchmark for Identifying Process Errors in Audio-Grounded Reasoning

Arxiv

0+阅读 · 6月7日

Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification

Arxiv

0+阅读 · 6月3日

Perturbation Effects on Accuracy and Fairness among Similar Individuals

Arxiv

0+阅读 · 5月30日

On the reconstruction of bandlimited signals from random samples quantized via noise-shaping

Arxiv

0+阅读 · 5月20日

Semantic Smoothing for Language Models via Distribution Estimation and Embeddings

Arxiv

0+阅读 · 5月8日

Stochastic Smoothed Particle Hydrodynamics for Stochastic Mechanics Problems

Arxiv

0+阅读 · 5月8日

相关基金

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

随机扰动下气动弹性系统失稳机理的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶时滞随机微分方程中的随机共振现象与行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

受Mittag-Lef？er噪声激励的广义朗之万方程的随机共振研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性调频信号激励双稳系统的随机共振理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员