对抗性攻击的最坏情况有多典型？——对抗鲁棒性与扰动鲁棒性的关联 (How Worst-Case Are Adversarial Attacks? Linking Adversarial and Perturbation Robustness) - 专知论文

会员服务 ·

0

对抗 · 攻击 · 鲁棒 · 扰动 · 最坏情况 ·

How Worst-Case Are Adversarial Attacks? Linking Adversarial and Perturbation Robustness

翻译：对抗性攻击的最坏情况有多典型？——对抗鲁棒性与扰动鲁棒性的关联

Giulio Rossolini

Adversarial attacks are widely used to identify model vulnerabilities; however, their validity as proxies for robustness to random perturbations remains debated. We ask whether an adversarial example provides a representative estimate of misprediction risk under stochastic perturbations of the same magnitude, or instead reflects an atypical worst-case event. To address this question, we introduce a probabilistic analysis that quantifies this risk with respect to directionally biased perturbation distributions, parameterized by a concentration factor $κ$ that interpolates between isotropic noise and adversarial directions. Building on this, we study the limits of this connection by proposing an attack strategy designed to probe vulnerabilities in regimes that are statistically closer to uniform noise. Experiments on ImageNet and CIFAR-10 systematically benchmark multiple attacks, revealing when adversarial success meaningfully reflects robustness to perturbations and when it does not, thereby informing their use in safety-oriented robustness evaluation.

翻译：对抗性攻击被广泛用于识别模型漏洞；然而，其作为随机扰动鲁棒性代理的有效性仍存争议。我们探讨：对抗样本是否提供了相同幅度随机扰动下误预测风险的代表性估计，抑或仅反映了非典型的极端最坏情况？为回答此问题，我们引入了一种概率分析框架，通过方向性偏置的扰动分布量化该风险，其中分布由浓度因子$κ$参数化，可在各向同性噪声与对抗方向之间连续插值。在此基础上，我们通过设计一种旨在探测更接近均匀噪声统计区域中脆弱性的攻击策略，研究该关联的极限。在ImageNet和CIFAR-10数据集上的实验系统性地评估了多种攻击方法，揭示了对抗攻击成功率在何种情况下能有效反映对扰动的鲁棒性，在何种情况下则不能，从而为面向安全的鲁棒性评估中攻击方法的使用提供指导。

0

相关内容

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

专知会员服务

36+阅读 · 2019年11月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

专知

29+阅读 · 2018年5月26日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

AI科技评论

11+阅读 · 2018年2月25日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

混凝土材料损伤演化方程、含损伤动态本构关系及其抗侵彻破坏机理的多尺度研究

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

RobustBlack: Challenging Black-Box Adversarial Attacks on State-of-the-Art Defenses

Arxiv

0+阅读 · 2月17日

Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks

Arxiv

0+阅读 · 2月16日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月16日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月13日

Empirical Analysis of Adversarial Robustness and Explainability Drift in Cybersecurity Classifiers

Arxiv

0+阅读 · 2月6日

Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP

Arxiv

0+阅读 · 1月27日

Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks

Arxiv

0+阅读 · 1月25日

Adversarial Alignment: Ensuring Value Consistency in Large Language Models for Sensitive Domains

Arxiv

0+阅读 · 1月22日

Erosion Attack for Adversarial Training to Enhance Semantic Segmentation Robustness

Arxiv

0+阅读 · 1月21日

Sy-FAR: Symmetry-based Fair Adversarial Robustness

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

面向图像分类的对抗鲁棒性评估综述

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

专知会员服务

36+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

专知

29+阅读 · 2018年5月26日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

AI科技评论

11+阅读 · 2018年2月25日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

RobustBlack: Challenging Black-Box Adversarial Attacks on State-of-the-Art Defenses

Arxiv

0+阅读 · 2月17日

Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks

Arxiv

0+阅读 · 2月16日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月16日

Consistency of Large Reasoning Models Under Multi-Turn Attacks

Arxiv

0+阅读 · 2月13日

Empirical Analysis of Adversarial Robustness and Explainability Drift in Cybersecurity Classifiers

Arxiv

0+阅读 · 2月6日

Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP

Arxiv

0+阅读 · 1月27日

Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks

Arxiv

0+阅读 · 1月25日

Adversarial Alignment: Ensuring Value Consistency in Large Language Models for Sensitive Domains

Arxiv

0+阅读 · 1月22日

Erosion Attack for Adversarial Training to Enhance Semantic Segmentation Robustness

Arxiv

0+阅读 · 1月21日

Sy-FAR: Symmetry-based Fair Adversarial Robustness

Arxiv

0+阅读 · 1月19日

相关基金

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

混凝土材料损伤演化方程、含损伤动态本构关系及其抗侵彻破坏机理的多尺度研究

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员