Motivated by the recent discovery that the interpretation maps of CNNs could easily be manipulated by adversarial attacks against network interpretability, we study the problem of interpretation robustness from a new perspective of \Renyi differential privacy (RDP). The advantages of our Renyi-Robust-Smooth (RDP-based interpretation method) are three-folds. First, it can offer provable and certifiable top-$k$ robustness. That is, the top-$k$ important attributions of the interpretation map are provably robust under any input perturbation with bounded $\ell_d$-norm (for any $d\geq 1$, including $d = \infty$). Second, our proposed method offers $\sim10\%$ better experimental robustness than existing approaches in terms of the top-$k$ attributions. Remarkably, the accuracy of Renyi-Robust-Smooth also outperforms existing approaches. Third, our method can provide a smooth tradeoff between robustness and computational efficiency. Experimentally, its top-$k$ attributions are {\em twice} more robust than existing approaches when the computational resources are highly constrained.


翻译:由于最近发现CNN的口译地图很容易被对抗性攻击网络可解释性的攻击所操纵,我们从新角度研究了解释的稳健性问题,我们的Renyi-Robust-Smooth(基于RDP的口译方法)有三重优势。首先,它可以提供可证实和可验证的美元顶值的稳健性。这就是说,在任何以美元兑网络解释性的对抗性攻击下,口译地图的顶值-美元的重要属性在任何投入中都相当稳健(对于任何以美元兑1美元兑1美元,包括美元兑每美元兑每美元兑1美元兑每美元兑1美元)的稳健性。第二,我们拟议的方法比目前以美元兑1美元兑1美元计算最高值的方法的试验稳健性更好。值得注意的是,Renyi-Robett-Smooth的准确性也比现有的方法要强得多。第三,我们的方法可以提供稳健和计算效率之间的平稳交易。实验性,当现有方法比高额的美元对高额计算时,其高额资源是两倍。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年6月12日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
已删除
AI掘金志
7+阅读 · 2019年7月8日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2020年6月29日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Arxiv
3+阅读 · 2017年12月23日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
0+阅读 · 26分钟前
国外海军作战管理系统与作战训练系统
专知会员服务
0+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
6+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
5+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
5+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关资讯
已删除
AI掘金志
7+阅读 · 2019年7月8日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员