Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks - 专知论文

会员服务 ·

0

潜在 · 攻击 · 对抗 · 样本 · 表示 ·

Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks

翻译：以火攻火：利用潜在空间方向实现深度神经网络运行时后门缓解

Enrico Ahlers,Daniel Passon,Yannic Noller,Lars Grunske

Machine learning models are increasingly present in our everyday lives; as a result, they become targets of adversarial attackers seeking to manipulate the systems we interact with. A well-known vulnerability is a backdoor introduced into a neural network by poisoned training data or a malicious training process. Backdoors can be used to induce unwanted behavior by including a certain trigger in the input. Existing mitigations filter training data, modify the model, or perform expensive input modifications on samples. If a vulnerable model has already been deployed, however, those strategies are either ineffective or inefficient. To address this gap, we propose our inference-time backdoor mitigation approach called FIRE (Feature-space Inference-time REpair). We hypothesize that a trigger induces structured and repeatable changes in the model's internal representation. We view the trigger as directions in the latent spaces between layers that can be applied in reverse to correct the inference mechanism. Therefore, we turn the backdoored model against itself by manipulating its latent representations and moving a poisoned sample's features along the backdoor directions to neutralize the trigger. Our evaluation shows that FIRE has low computational overhead and outperforms current runtime mitigations on image benchmarks across various attacks, datasets, and network architectures.

翻译：机器学习模型日益融入日常生活，随之成为对抗攻击者的目标，这些攻击者试图操纵我们交互的系统。一个众所周知的漏洞是通过投毒训练数据或恶意训练过程在神经网络中植入的后门。通过在输入中包含特定触发器，后门可被用于诱导非预期行为。现有缓解措施包括过滤训练数据、修改模型或对样本进行昂贵的输入修改。然而，若易受攻击的模型已部署，这些策略要么无效要么低效。为填补这一空白，我们提出名为FIRE（特征空间推理时修复）的推理时后门缓解方法。我们假设触发器会在模型内部表示中引发结构化且可重复的变化。我们将触发器视为层间潜在空间中的方向向量，可通过反向应用来修正推理机制。因此，我们通过操纵潜在表示并沿后门方向移动中毒样本的特征以中和触发器，使被植入后门的模型实现自我对抗。评估结果表明，FIRE具有较低的计算开销，在多种攻击、数据集和网络架构的图像基准测试中均优于当前运行时缓解方法。

0

相关内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

20+阅读 · 2025年9月13日

深度学习中的架构后门：漏洞、检测与防御综述

深度学习中的架构后门：漏洞、检测与防御综述

专知会员服务

12+阅读 · 2025年7月19日

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

13+阅读 · 2025年7月4日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

30+阅读 · 2025年4月1日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

27+阅读 · 2022年11月16日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

深度学习模型的中毒攻击与防御综述

专知会员服务

68+阅读 · 2021年1月10日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

12+阅读 · 2022年10月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

一位ML工程师构建深度神经网络的实用技巧

一位ML工程师构建深度神经网络的实用技巧

AI100

11+阅读 · 2018年9月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

HAMLOCK: HArdware-Model LOgically Combined attacK

HAMLOCK: HArdware-Model LOgically Combined attacK

Arxiv

0+阅读 · 3月16日

Test-Time Attention Purification for Backdoored Large Vision Language Models

Test-Time Attention Purification for Backdoored Large Vision Language Models

Arxiv

0+阅读 · 3月13日

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Arxiv

0+阅读 · 3月12日

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Arxiv

0+阅读 · 3月11日

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

Arxiv

0+阅读 · 3月8日

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

Arxiv

0+阅读 · 3月7日

IU: Imperceptible Universal Backdoor Attack

Arxiv

0+阅读 · 2月28日

DropVLA: An Action-Level Backdoor Attack on Vision--Language--Action Models

Arxiv

0+阅读 · 2月26日

PBP: Post-training Backdoor Purification for Malware Classifiers

Arxiv

0+阅读 · 2月12日

Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation

Arxiv

0+阅读 · 2月11日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

8+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

3+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

5+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

7+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

20+阅读 · 2025年9月13日

深度学习中的架构后门：漏洞、检测与防御综述

深度学习中的架构后门：漏洞、检测与防御综述

专知会员服务

12+阅读 · 2025年7月19日

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

13+阅读 · 2025年7月4日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

30+阅读 · 2025年4月1日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

27+阅读 · 2022年11月16日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

深度学习模型的中毒攻击与防御综述

专知会员服务

68+阅读 · 2021年1月10日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

12+阅读 · 2022年10月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

一位ML工程师构建深度神经网络的实用技巧

一位ML工程师构建深度神经网络的实用技巧

AI100

11+阅读 · 2018年9月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

HAMLOCK: HArdware-Model LOgically Combined attacK

HAMLOCK: HArdware-Model LOgically Combined attacK

Arxiv

0+阅读 · 3月16日

Test-Time Attention Purification for Backdoored Large Vision Language Models

Test-Time Attention Purification for Backdoored Large Vision Language Models

Arxiv

0+阅读 · 3月13日

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Arxiv

0+阅读 · 3月12日

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Arxiv

0+阅读 · 3月11日

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

Arxiv

0+阅读 · 3月8日

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

Arxiv

0+阅读 · 3月7日

IU: Imperceptible Universal Backdoor Attack

Arxiv

0+阅读 · 2月28日

DropVLA: An Action-Level Backdoor Attack on Vision--Language--Action Models

Arxiv

0+阅读 · 2月26日

PBP: Post-training Backdoor Purification for Malware Classifiers

Arxiv

0+阅读 · 2月12日

Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation

Arxiv

0+阅读 · 2月11日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员