Backdoors in DRL: Four Environments Focusing on In-distribution Triggers - 专知论文

会员服务 ·

0

攻击 · 后门攻击 · 网络模型 · 安全威胁 · 深度强化学习 ·

2025 年 12 月 12 日

Backdoors in DRL: Four Environments Focusing on In-distribution Triggers

翻译：深度强化学习中的后门：聚焦于分布内触发器的四个环境

Chace Ashcraft,Ted Staley,Josh Carney,Cameron Hickert,Derek Juba,Kiran Karra,Nathan Drenkow

Backdoor attacks, or trojans, pose a security risk by concealing undesirable behavior in deep neural network models. Open-source neural networks are downloaded from the internet daily, possibly containing backdoors, and third-party model developers are common. To advance research on backdoor attack mitigation, we develop several trojans for deep reinforcement learning (DRL) agents. We focus on in-distribution triggers, which occur within the agent's natural data distribution, since they pose a more significant security threat than out-of-distribution triggers due to their ease of activation by the attacker during model deployment. We implement backdoor attacks in four reinforcement learning (RL) environments: LavaWorld, Randomized LavaWorld, Colorful Memory, and Modified Safety Gymnasium. We train various models, both clean and backdoored, to characterize these attacks. We find that in-distribution triggers can require additional effort to implement and be more challenging for models to learn, but are nevertheless viable threats in DRL even using basic data poisoning attacks.

翻译：后门攻击（或称木马攻击）通过在深度神经网络模型中隐藏恶意行为，构成安全威胁。开源神经网络模型每日从互联网下载，可能包含后门，且第三方模型开发十分普遍。为推进后门攻击防御研究，我们针对深度强化学习（DRL）智能体开发了多种木马攻击。我们重点关注分布内触发器——这些触发器出现在智能体自然数据分布范围内，由于攻击者在模型部署期间更容易激活它们，因此比分布外触发器构成更严重的安全威胁。我们在四个强化学习（RL）环境中实现了后门攻击：LavaWorld、Randomized LavaWorld、Colorful Memory 和 Modified Safety Gymnasium。我们训练了多种清洁模型与后门模型以表征这些攻击。研究发现，分布内触发器可能需要额外实施成本且模型学习难度更高，但即使使用基础数据投毒攻击，它们仍是DRL中切实可行的威胁。

0

相关内容

图像反演：从生成对抗网络（GANs）到扩散模型及其未来发展综述

图像反演：从生成对抗网络（GANs）到扩散模型及其未来发展综述

专知会员服务

30+阅读 · 2025年2月18日

【WSDM2024】数据中的恶魔：通过部分知识蒸馏学习公平的图神经网络

【WSDM2024】数据中的恶魔：通过部分知识蒸馏学习公平的图神经网络

专知会员服务

31+阅读 · 2023年12月1日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

24+阅读 · 2023年5月10日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

专知会员服务

108+阅读 · 2020年3月29日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【图神经网络遇上符号计算】Graph Neural Networks Meet Neural-Symbolic Computing: A Survey and Perspective

【图神经网络遇上符号计算】Graph Neural Networks Meet Neural-Symbolic Computing: A Survey and Perspective

专知会员服务

45+阅读 · 2020年3月3日

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

专知会员服务

49+阅读 · 2020年1月1日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

抗密钥篡改可证明安全公钥密码算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于高空间分辨电子显微学In2-xGaxO3(ZnO)m缺陷分析

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

Evolution of Benchmark: Black-Box Optimization Benchmark Design through Large Language Model

Arxiv

0+阅读 · 1月29日

DGRAG: Distributed Graph-based Retrieval-Augmented Generation in Edge-Cloud Systems

Arxiv

0+阅读 · 1月28日

CNN-based IoT Device Identification: A Comparative Study on Payload vs. Fingerprint

Arxiv

0+阅读 · 1月27日

BAIT: Visual-illusion-inspired Privacy Preservation for Mobile Data Visualization

Arxiv

0+阅读 · 1月26日

Adversarial Bug Reports as a Security Risk in Language Model-Based Automated Program Repair

Arxiv

0+阅读 · 1月26日

FedCCA: Client-Centric Adaptation against Data Heterogeneity in Federated Learning on IoT Devices

Arxiv

0+阅读 · 1月25日

A Deep Reinforcement Learning-Based TCP Congestion Control Algorithm: Design, Simulation, and Evaluation

Arxiv

0+阅读 · 1月19日

Statistical-Neural Interaction Networks for Interpretable Mixed-Type Data Imputation

Arxiv

0+阅读 · 1月18日

Towards Understanding Deep Learning Model in Image Recognition via Coverage Test

Arxiv

0+阅读 · 1月15日

UEChecker: Detecting Unchecked External Call Vulnerabilities in DApps via Graph Analysis

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

深度强化学习

最新内容

ICML 2026 | SARDI：扩散语言模型的自增强检索

ICML 2026 | SARDI：扩散语言模型的自增强检索

专知会员服务

1+阅读 · 6月6日

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

1+阅读 · 6月6日

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

专知会员服务

7+阅读 · 6月6日

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

专知会员服务

2+阅读 · 6月6日

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

3+阅读 · 6月6日

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

专知会员服务

2+阅读 · 6月6日

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

专知会员服务

2+阅读 · 6月6日

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

5+阅读 · 6月5日

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

5+阅读 · 6月5日

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

6+阅读 · 6月5日

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

6+阅读 · 6月5日

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

7+阅读 · 6月5日

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

13+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

16+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

13+阅读 · 6月4日

相关VIP内容

图像反演：从生成对抗网络（GANs）到扩散模型及其未来发展综述

图像反演：从生成对抗网络（GANs）到扩散模型及其未来发展综述

专知会员服务

30+阅读 · 2025年2月18日

【WSDM2024】数据中的恶魔：通过部分知识蒸馏学习公平的图神经网络

【WSDM2024】数据中的恶魔：通过部分知识蒸馏学习公平的图神经网络

专知会员服务

31+阅读 · 2023年12月1日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

24+阅读 · 2023年5月10日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

【ICLR 2020】基于组合的多关系图卷积网络 Composition-Based Multi-Relational Graph Convolutional Networks

专知会员服务

108+阅读 · 2020年3月29日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【图神经网络遇上符号计算】Graph Neural Networks Meet Neural-Symbolic Computing: A Survey and Perspective

【图神经网络遇上符号计算】Graph Neural Networks Meet Neural-Symbolic Computing: A Survey and Perspective

专知会员服务

45+阅读 · 2020年3月3日

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

专知会员服务

49+阅读 · 2020年1月1日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

长时程具身智能安全综述：机器人操作的跨层分析

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

ICML 2026 | SARDI：扩散语言模型的自增强检索

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

相关资讯

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

相关论文

Evolution of Benchmark: Black-Box Optimization Benchmark Design through Large Language Model

Arxiv

0+阅读 · 1月29日

DGRAG: Distributed Graph-based Retrieval-Augmented Generation in Edge-Cloud Systems

Arxiv

0+阅读 · 1月28日

CNN-based IoT Device Identification: A Comparative Study on Payload vs. Fingerprint

Arxiv

0+阅读 · 1月27日

BAIT: Visual-illusion-inspired Privacy Preservation for Mobile Data Visualization

Arxiv

0+阅读 · 1月26日

Adversarial Bug Reports as a Security Risk in Language Model-Based Automated Program Repair

Arxiv

0+阅读 · 1月26日

FedCCA: Client-Centric Adaptation against Data Heterogeneity in Federated Learning on IoT Devices

Arxiv

0+阅读 · 1月25日

A Deep Reinforcement Learning-Based TCP Congestion Control Algorithm: Design, Simulation, and Evaluation

Arxiv

0+阅读 · 1月19日

Statistical-Neural Interaction Networks for Interpretable Mixed-Type Data Imputation

Arxiv

0+阅读 · 1月18日

Towards Understanding Deep Learning Model in Image Recognition via Coverage Test

Arxiv

0+阅读 · 1月15日

UEChecker: Detecting Unchecked External Call Vulnerabilities in DApps via Graph Analysis

Arxiv

0+阅读 · 1月15日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

抗密钥篡改可证明安全公钥密码算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于高空间分辨电子显微学In2-xGaxO3(ZnO)m缺陷分析

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员