扩散引导的现实世界强化学习后门攻击 (Diffusion-Guided Backdoor Attacks in Real-World Reinforcement Learning) - 专知论文

会员服务 ·

0

攻击 · 后门攻击 · 系统 · 强化学习 · 机器人 ·

Diffusion-Guided Backdoor Attacks in Real-World Reinforcement Learning

翻译：扩散引导的现实世界强化学习后门攻击

Tairan Huang,Qingqing Ye,Yulin Jin,Jiawei Lian,Yi Wang,Haibo Hu

Backdoor attacks embed hidden malicious behaviors in reinforcement learning (RL) policies and activate them using triggers at test time. Most existing attacks are validated only in simulation, while their effectiveness in real-world robotic systems remains unclear. In physical deployment, safety-constrained control pipelines such as velocity limiting, action smoothing, and collision avoidance suppress abnormal actions, causing strong attenuation of conventional backdoor attacks. We study this previously overlooked problem and propose a diffusion-guided backdoor attack framework (DGBA) for real-world RL. We design small printable visual patch triggers placed on the floor and generate them using a conditional diffusion model that produces diverse patch appearances under real-world visual variations. We treat the robot control stack as a black-box system. We further introduce an advantage-based poisoning strategy that injects triggers only at decision-critical training states. We evaluate our method on a TurtleBot3 mobile robot and demonstrate reliable activation of targeted attacks while preserving normal task performance. Demo videos and code are available in the supplementary material.

翻译：后门攻击在强化学习策略中嵌入隐藏的恶意行为，并在测试时使用触发器激活它们。现有攻击大多仅在仿真环境中验证，其在现实世界机器人系统中的有效性尚不明确。在物理部署中，安全约束控制流程（如速度限制、动作平滑和碰撞避免）会抑制异常动作，导致传统后门攻击效果严重衰减。我们研究这一先前被忽视的问题，并提出一种面向现实世界强化学习的扩散引导后门攻击框架。我们设计放置于地面的小型可打印视觉补丁触发器，并利用条件扩散模型生成它们，该模型能在现实世界视觉变化下产生多样化的补丁外观。我们将机器人控制栈视为黑盒系统。进一步引入基于优势的投毒策略，仅在决策关键的训练状态注入触发器。我们在TurtleBot3移动机器人上评估所提方法，结果表明在保持正常任务性能的同时，能够可靠地激活目标攻击。演示视频和代码详见补充材料。

0

相关内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

深度学习中的架构后门：漏洞、检测与防御综述

深度学习中的架构后门：漏洞、检测与防御综述

专知会员服务

12+阅读 · 2025年7月19日

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

【NTU博士论文】深度学习中的后门：新的威胁与机会

【NTU博士论文】深度学习中的后门：新的威胁与机会

专知会员服务

26+阅读 · 2025年1月31日

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

专知会员服务

29+阅读 · 2023年11月21日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

26+阅读 · 2022年11月16日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

专知

59+阅读 · 2020年3月5日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Revisiting Backdoor Threat in Federated Instruction Tuning from a Signal Aggregation Perspective

Arxiv

0+阅读 · 2月17日

Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks

Arxiv

0+阅读 · 2月11日

Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation

Arxiv

0+阅读 · 2月11日

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Arxiv

0+阅读 · 2月6日

Semantic-level Backdoor Attack against Text-to-Image Diffusion Models

Arxiv

0+阅读 · 2月3日

When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

Arxiv

0+阅读 · 2月3日

Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models

Arxiv

0+阅读 · 1月30日

BadDet+: Robust Backdoor Attacks for Object Detection

Arxiv

0+阅读 · 1月28日

SoK: On the Survivability of Backdoor Attacks on Unconstrained Face Recognition Systems

Arxiv

0+阅读 · 1月20日

CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

相关VIP内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

深度学习中的架构后门：漏洞、检测与防御综述

深度学习中的架构后门：漏洞、检测与防御综述

专知会员服务

12+阅读 · 2025年7月19日

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

【NTU博士论文】深度学习中的后门：新的威胁与机会

【NTU博士论文】深度学习中的后门：新的威胁与机会

专知会员服务

26+阅读 · 2025年1月31日

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

专知会员服务

29+阅读 · 2023年11月21日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

26+阅读 · 2022年11月16日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

专知

59+阅读 · 2020年3月5日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Revisiting Backdoor Threat in Federated Instruction Tuning from a Signal Aggregation Perspective

Arxiv

0+阅读 · 2月17日

Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks

Arxiv

0+阅读 · 2月11日

Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation

Arxiv

0+阅读 · 2月11日

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Arxiv

0+阅读 · 2月6日

Semantic-level Backdoor Attack against Text-to-Image Diffusion Models

Arxiv

0+阅读 · 2月3日

When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

Arxiv

0+阅读 · 2月3日

Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models

Arxiv

0+阅读 · 1月30日

BadDet+: Robust Backdoor Attacks for Object Detection

Arxiv

0+阅读 · 1月28日

SoK: On the Survivability of Backdoor Attacks on Unconstrained Face Recognition Systems

Arxiv

0+阅读 · 1月20日

CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning

Arxiv

0+阅读 · 1月15日

相关基金

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员