How Vulnerable Is My Learned Policy? Universal Adversarial Perturbation Attacks On Modern Behavior Cloning Policies - 专知论文

会员服务 ·

0

攻击 · 对抗 · 脆弱性 · 算法 · 扰动 ·

How Vulnerable Is My Learned Policy? Universal Adversarial Perturbation Attacks On Modern Behavior Cloning Policies

翻译：我的习得策略有多脆弱？针对现代行为克隆策略的通用对抗扰动攻击

Akansha Kalra,Basavasagar Patil,Guanhong Tao,Daniel S. Brown

Learning from demonstrations is a popular approach to train AI models; however, their vulnerability to adversarial attacks remains underexplored. We present the first systematic study of adversarial attacks, across a range of both classic and recently proposed imitation learning algorithms, including Vanilla Behavior Cloning (Vanilla BC), LSTM-GMM, Implicit Behavior Cloning (IBC), Diffusion Policy (DP), and Vector-Quantized Behavior Transformer (VQ-BET). We study the vulnerability of these methods to both white-box, grey-box and black-box adversarial perturbations. Our experiments reveal that most existing methods are highly vulnerable to these attacks, including black-box transfer attacks that transfer across algorithms. To the best of our knowledge, we are the first to study and compare the vulnerabilities of different popular imitation learning algorithms to both white-box and black-box attacks. Our findings highlight the vulnerabilities of modern imitation learning algorithms, paving the way for future work in addressing such limitations. Videos and code are available at https://sites.google.com/view/uap-attacks-on-bc.

翻译：从示范中学习是训练AI模型的一种流行方法，然而这些模型对对抗性攻击的脆弱性尚未得到充分研究。我们首次对一系列经典及近期提出的模仿学习算法进行了对抗性攻击的系统性研究，包括原始行为克隆（Vanilla BC）、LSTM-GMM、隐式行为克隆（IBC）、扩散策略（DP）和向量量化行为Transformer（VQ-BET）。我们研究了这些方法在白盒、灰盒及黑盒对抗扰动下的脆弱性。实验表明，大多数现有方法对这些攻击高度脆弱，包括跨算法转移的黑盒攻击。据我们所知，我们是首个研究与比较不同流行模仿学习算法对白盒及黑盒攻击脆弱性的工作。我们的发现揭示了现代模仿学习算法的脆弱性，为未来解决此类局限性铺平了道路。视频和代码可在 https://sites.google.com/view/uap-attacks-on-bc 获取。

0

相关内容

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

96+阅读 · 2021年1月17日

深度学习的对抗攻击与防御方法综述

专知会员服务

99+阅读 · 2020年12月8日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知会员服务

24+阅读 · 2019年10月20日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

专知

29+阅读 · 2018年5月26日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Defending Quantum Classifiers against Adversarial Perturbations through Quantum Autoencoders

Arxiv

0+阅读 · 4月30日

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

Arxiv

0+阅读 · 4月29日

Reasoning Hijacking: The Fragility of Reasoning Alignment in Large Language Models

Arxiv

0+阅读 · 4月26日

Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4

Arxiv

0+阅读 · 4月21日

ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs

Arxiv

0+阅读 · 4月20日

Ranking Abuse via Strategic Pairwise Data Perturbations

Arxiv

0+阅读 · 4月20日

Revealing Physical-World Semantic Vulnerabilities: Universal Adversarial Patches for Infrared Vision-Language Models

Arxiv

0+阅读 · 4月3日

PDA: Text-Augmented Defense Framework for Robust Vision-Language Models against Adversarial Image Attacks

Arxiv

0+阅读 · 4月1日

Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization

Arxiv

0+阅读 · 4月1日

Divided We Fall: Defending Against Adversarial Attacks via Soft-Gated Fractional Mixture-of-Experts with Randomized Adversarial Training

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

2+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

3+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

96+阅读 · 2021年1月17日

深度学习的对抗攻击与防御方法综述

专知会员服务

99+阅读 · 2020年12月8日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知会员服务

24+阅读 · 2019年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

黑魔法防御术：Ian Goodfellow对抗样本研究现状与未来方向综述

专知

29+阅读 · 2018年5月26日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

相关论文

Defending Quantum Classifiers against Adversarial Perturbations through Quantum Autoencoders

Arxiv

0+阅读 · 4月30日

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

Arxiv

0+阅读 · 4月29日

Reasoning Hijacking: The Fragility of Reasoning Alignment in Large Language Models

Arxiv

0+阅读 · 4月26日

Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4

Arxiv

0+阅读 · 4月21日

ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs

Arxiv

0+阅读 · 4月20日

Ranking Abuse via Strategic Pairwise Data Perturbations

Arxiv

0+阅读 · 4月20日

Revealing Physical-World Semantic Vulnerabilities: Universal Adversarial Patches for Infrared Vision-Language Models

Arxiv

0+阅读 · 4月3日

PDA: Text-Augmented Defense Framework for Robust Vision-Language Models against Adversarial Image Attacks

Arxiv

0+阅读 · 4月1日

Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization

Arxiv

0+阅读 · 4月1日

Divided We Fall: Defending Against Adversarial Attacks via Soft-Gated Fractional Mixture-of-Experts with Randomized Adversarial Training

Arxiv

0+阅读 · 3月26日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员