Class Activation Mapping (CAM) and its gradient-based variants (e.g., GradCAM) have become standard tools for explaining Convolutional Neural Network (CNN) predictions. However, these approaches typically focus on individual logits, while for neural networks using softmax, the class membership probability estimates depend only on the differences between logits, not on their absolute values. This disconnect leaves standard CAMs vulnerable to adversarial manipulation, such as passive fooling, where a model is trained to produce misleading CAMs without affecting decision performance. To address this vulnerability, we propose DiffGradCAM and its higher-order derivative version DiffGradCAM++, as novel, lightweight, contrastive approaches to class activation mapping that are not susceptible to passive fooling and match the output of standard methods such as GradCAM and GradCAM++ in the non-adversarial case. To test our claims, we introduce Salience-Hoax Activation Maps (SHAMs), a more advanced, entropy-aware form of passive fooling that serves as a benchmark for CAM robustness under adversarial conditions. Together, SHAM and DiffGradCAM establish a new framework for probing and improving the robustness of saliency-based explanations. We validate both contributions across multi-class tasks with few and many classes.


翻译:类激活映射及其基于梯度的变体(如GradCAM)已成为解释卷积神经网络预测结果的标准工具。然而,这些方法通常聚焦于单个逻辑值,而使用softmax的神经网络中,类别隶属概率估计仅取决于逻辑值间的差值,而非其绝对值。这种脱节使得标准CAM易受对抗性操纵,例如被动愚弄——即在不影响决策性能的情况下训练模型生成误导性CAM。为解决该漏洞,我们提出DiffGradCAM及其高阶导数版本DiffGradCAM++,作为新颖、轻量级的对比式类激活映射方法。该方法不易受被动愚弄影响,且在非对抗场景下与GradCAM、GradCAM++等标准方法输出匹配。为验证上述论断,我们引入显著性欺骗激活图——一种更先进的、基于熵感知的被动愚弄形式,可作为对抗条件下CAM鲁棒性的基准。SHAM与DiffGradCAM共同构建了探测并提升显著性解释鲁棒性的新框架。我们在少类别与多类别任务中验证了这两项贡献的有效性。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年7月17日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
专知会员服务
26+阅读 · 2021年7月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员