This paper investigates the fragility of post-hoc explanation methods in audio deepfake detection. While previous work on explanation manipulation focused on images using standard $L_p$ metrics, we introduce a psychoacoustic framework that optimizes inaudible perturbations to decouple model attributions from final classifications. We evaluate this vulnerability across state-of-the-art architectures under strict prediction-preserving constraints. By evaluating the manipulation cost through domain-specific perceptual audio quality metrics alongside explanation alignment criteria, our framework demonstrates that an adversary can systematically distort automated explanation heatmaps while preserving the predicted deepfake label. Full code available at: https://github.com/cncPomper/Audio-XAI


翻译:本文研究了事后解释方法在音频深度伪造检测中的脆弱性。以往关于解释操纵的研究主要基于标准$L_p$范数度量聚焦于图像领域,我们则引入了一种心理声学框架,通过优化不可感知扰动来解耦模型归因与最终分类。我们在严格保持预测结果不变的约束条件下,评估了该脆弱性在最先进架构中的表现。通过结合领域特定的感知音频质量指标与解释对齐准则来衡量操纵成本,我们的框架证明:攻击者可以在保留预测深度伪造标签的同时,系统性地扭曲自动化解释热力图。完整代码详见:https://github.com/cncPomper/Audio-XAI

0
下载
关闭预览

相关内容

《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
相关资讯
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员