Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning - 专知论文

会员服务 ·

0

攻击 · 对抗 · 对抗样本 · 样本 · 强化学习 ·

Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning

翻译：对抗性智能体：基于强化学习的黑盒逃避攻击

Kyle Domico,Jean-Charles Noirot Ferrand,Ryan Sheatsley,Eric Pauley,Josiah Hanna,Patrick McDaniel

from arxiv, Accepted to the Findings of CVPR 2026

Attacks on machine learning models have been extensively studied through stateless optimization. In this paper, we demonstrate how a reinforcement learning (RL) agent can learn a new class of attack algorithms that generate adversarial samples. Unlike traditional adversarial machine learning (AML) methods that craft adversarial samples independently, our RL-based approach retains and exploits past attack experience to improve the effectiveness and efficiency of future attacks. We formulate adversarial sample generation as a Markov Decision Process and evaluate RL's ability to (a) learn effective and efficient attack strategies and (b) compete with state-of-the-art AML. On two image classification benchmarks, our agent increases attack success rate by up to 13.2% and decreases the average number of victim model queries per attack by up to 16.9% from the start to the end of training. In a head-to-head comparison with state-of-the-art image attacks, our approach enables an adversary to generate adversarial samples with 17% more success on unseen inputs post-training. From a security perspective, this work demonstrates a powerful new attack vector that uses RL to train agents that attack ML models efficiently and at scale.

翻译：对机器学习模型的攻击已在无状态优化框架下得到广泛研究。本文展示了一个强化学习智能体如何学习生成对抗样本的新型攻击算法。与传统对抗机器学习方法独立生成对抗样本不同，基于强化学习的方法能够保留并利用历史攻击经验来提升后续攻击的有效性和高效性。我们将对抗样本生成过程建模为马尔可夫决策过程，并评估强化学习在以下两方面的能力：(a) 学习有效且高效的攻击策略；(b) 与当前最优对抗机器学习方法竞争。在两个图像分类基准测试中，从训练初期到末期，智能体将攻击成功率提升了最高13.2%，每次攻击所需的受害者模型查询次数平均减少了16.9%。在与当前最优图像攻击方法的直接对比中，本方法使攻击者在训练后针对未见输入生成对抗样本的成功率提高17%。从安全角度来看，本工作揭示了一种全新的攻击向量，即利用强化学习训练能够高效大规模攻击机器学习模型的智能体。

0

相关内容

《针对指挥控制强化学习智能体的对抗攻击》

《针对指挥控制强化学习智能体的对抗攻击》

专知会员服务

32+阅读 · 2月5日

《指挥和控制强化学习智能体的对抗性攻击》

《指挥和控制强化学习智能体的对抗性攻击》

专知会员服务

72+阅读 · 2024年7月6日

《指挥和控制中强化学习智能体的对抗性攻击》

《指挥和控制中强化学习智能体的对抗性攻击》

专知会员服务

73+阅读 · 2024年5月11日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

53+阅读 · 2023年3月16日

对抗机器学习在网络入侵检测领域的应用

对抗机器学习在网络入侵检测领域的应用

专知会员服务

35+阅读 · 2022年1月4日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

针对深度学习模型的对抗性攻击与防御

专知会员服务

49+阅读 · 2021年5月17日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

97+阅读 · 2021年1月17日

深度学习的对抗攻击与防御方法综述

专知会员服务

100+阅读 · 2020年12月8日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

专知

29+阅读 · 2018年5月26日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Dynamic Malicious Skills in Agentic AI

Arxiv

0+阅读 · 6月16日

DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

Arxiv

0+阅读 · 6月15日

A Survey on Agentic Security: Applications, Threats and Defenses

Arxiv

0+阅读 · 6月12日

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

Arxiv

0+阅读 · 6月10日

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

Arxiv

0+阅读 · 6月8日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

Defenses & Enablers For Skill Injection Attacks on Terminal Based Agents

Arxiv

0+阅读 · 6月7日

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

A No-Defense Defense Against Gradient-Based Adversarial Attacks on ML-NIDS: Is Less More?

Arxiv

0+阅读 · 5月18日

WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

《针对指挥控制强化学习智能体的对抗攻击》

《针对指挥控制强化学习智能体的对抗攻击》

专知会员服务

32+阅读 · 2月5日

《指挥和控制强化学习智能体的对抗性攻击》

《指挥和控制强化学习智能体的对抗性攻击》

专知会员服务

72+阅读 · 2024年7月6日

《指挥和控制中强化学习智能体的对抗性攻击》

《指挥和控制中强化学习智能体的对抗性攻击》

专知会员服务

73+阅读 · 2024年5月11日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

53+阅读 · 2023年3月16日

对抗机器学习在网络入侵检测领域的应用

对抗机器学习在网络入侵检测领域的应用

专知会员服务

35+阅读 · 2022年1月4日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

24+阅读 · 2021年8月22日

针对深度学习模型的对抗性攻击与防御

专知会员服务

49+阅读 · 2021年5月17日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

97+阅读 · 2021年1月17日

深度学习的对抗攻击与防御方法综述

专知会员服务

100+阅读 · 2020年12月8日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

专知

29+阅读 · 2018年5月26日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Dynamic Malicious Skills in Agentic AI

Arxiv

0+阅读 · 6月16日

DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

Arxiv

0+阅读 · 6月15日

A Survey on Agentic Security: Applications, Threats and Defenses

Arxiv

0+阅读 · 6月12日

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

Arxiv

0+阅读 · 6月10日

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

Arxiv

0+阅读 · 6月8日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

Defenses & Enablers For Skill Injection Attacks on Terminal Based Agents

Arxiv

0+阅读 · 6月7日

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月29日

A No-Defense Defense Against Gradient-Based Adversarial Attacks on ML-NIDS: Is Less More?

Arxiv

0+阅读 · 5月18日

WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections

Arxiv

0+阅读 · 5月14日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员