Image segmentation is an important problem in many safety-critical applications. Recent studies show that modern image segmentation models are vulnerable to adversarial perturbations, while existing attack methods mainly follow the idea of attacking image classification models. We argue that image segmentation and classification have inherent differences, and design an attack framework specially for image segmentation models. Our attack framework is inspired by certified radius, which was originally used by defenders to defend against adversarial perturbations to classification models. We are the first, from the attacker perspective, to leverage the properties of certified radius and propose a certified radius guided attack framework against image segmentation models. Specifically, we first adapt randomized smoothing, the state-of-the-art certification method for classification models, to derive the pixel's certified radius. We then focus more on disrupting pixels with relatively smaller certified radii and design a pixel-wise certified radius guided loss, when plugged into any existing white-box attack, yields our certified radius-guided white-box attack. Next, we propose the first black-box attack to image segmentation models via bandit. We design a novel gradient estimator, based on bandit feedback, which is query-efficient and provably unbiased and stable. We use this gradient estimator to design a projected bandit gradient descent (PBGD) attack, as well as a certified radius-guided PBGD (CR-PBGD) attack. We prove our PBGD and CR-PBGD attacks can achieve asymptotically optimal attack performance with an optimal rate. We evaluate our certified-radius guided white-box and black-box attacks on multiple modern image segmentation models and datasets. Our results validate the effectiveness of our certified radius-guided attack framework.


翻译:图像分割是众多安全关键应用中的重要问题。近期研究表明,现代图像分割模型易受对抗性扰动影响,而现有攻击方法主要沿袭图像分类模型攻击思路。我们认为图像分割与分类存在本质差异,为此专门设计了针对图像分割模型的攻击框架。该框架受认证半径启发,该指标最初被防御方用于防御针对分类模型的对抗性扰动。我们首次从攻击者视角利用认证半径特性,提出针对图像分割模型的认证半径引导攻击框架。具体而言,首先借鉴分类模型中最先进的认证方法——随机平滑,推导像素级认证半径;继而重点破坏认证半径较小的像素,设计像素级认证半径引导损失函数,将其嵌入任意白盒攻击中即可构建认证半径引导白盒攻击。随后,我们提出首个基于强盗算法的图像分割模型黑盒攻击方法。通过设计基于强盗反馈的新型梯度估计器,该估计器兼具查询高效性、无偏性与稳定性。利用该梯度估计器,我们进一步设计了投影强盗梯度下降(PBGD)攻击及其变体——认证半径引导投影强盗梯度下降(CR-PBGD)攻击。理论证明PBGD与CR-PBGD攻击能以最优速率实现渐近最优攻击性能。我们在多个现代图像分割模型与数据集上评估了所提出的认证半径引导白盒与黑盒攻击,实验结果验证了该攻击框架的有效性。

0
下载
关闭预览

相关内容

【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
14+阅读 · 2021年3月14日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
35+阅读 · 2020年6月3日
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
14+阅读 · 2019年7月12日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
手把手教你使用TensorFlow生成对抗样本 | 附源码
全球人工智能
11+阅读 · 2017年10月13日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2021年3月10日
Image Segmentation Using Deep Learning: A Survey
Arxiv
47+阅读 · 2020年1月15日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
最新内容
ICML 2026|ECA:面向开放式图文生成的高效持续对齐
俄乌战场地面机器人如何改写战争规则
专知会员服务
2+阅读 · 今天13:58
《无人水面艇文献综述与结构设计》135页
专知会员服务
10+阅读 · 6月13日
乌克兰战场背后的新武器
专知会员服务
7+阅读 · 6月12日
基于博弈论的陆军人机协同(长文报告)
专知会员服务
13+阅读 · 6月12日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员