Backdoor Directions in Vision Transformers - 专知论文

会员服务 ·

0

攻击 · 视觉Transformer · Transformer · 识别 · 后门攻击 ·

Backdoor Directions in Vision Transformers

翻译：视觉Transformer中的后门方向

Sengim Karayalcin,Marina Krcek,Pin-Yu Chen,Stjepan Picek

from arxiv, 31 pages, 16 figures

This paper investigates how Backdoor Attacks are represented within Vision Transformers (ViTs). By assuming knowledge of the trigger, we identify a specific ``trigger direction'' in the model's activations that corresponds to the internal representation of the trigger. We confirm the causal role of this linear direction by showing that interventions in both activation and parameter space consistently modulate the model's backdoor behavior across multiple datasets and attack types. Using this direction as a diagnostic tool, we trace how backdoor features are processed across layers. Our analysis reveals distinct qualitative differences: static-patch triggers follow a different internal logic than stealthy, distributed triggers. We further examine the link between backdoors and adversarial attacks, specifically testing whether PGD-based perturbations (de-)activate the identified trigger mechanism. Finally, we propose a data-free, weight-based detection scheme for stealthy-trigger attacks. Our findings show that mechanistic interpretability offers a robust framework for diagnosing and addressing security vulnerabilities in computer vision.

翻译：本文研究了后门攻击在视觉Transformer（ViT）中的内部表征方式。通过假设已知触发器信息，我们在模型激活空间中识别出一个特定的"触发器方向"，该方向对应触发器的内部表征。我们通过展示在激活空间和参数空间的双重干预能够跨多个数据集和攻击类型持续调节模型的后门行为，证实了这一线性方向的因果作用。利用该方向作为诊断工具，我们追踪了后门特征在Transformer各层中的处理过程。分析揭示了显著的质性差异：静态补丁触发器遵循与隐蔽分布式触发器不同的内部逻辑机制。我们进一步探究了后门攻击与对抗攻击之间的关联，特别测试了基于PGD的扰动是否能够（去）激活已识别的触发机制。最后，我们提出了一种针对隐蔽触发攻击的无数据权重检测方案。研究结果表明，机制可解释性为诊断和应对计算机视觉安全漏洞提供了稳健的理论框架。

0

相关内容

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

专知会员服务

21+阅读 · 2024年3月23日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

26+阅读 · 2022年11月16日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉life

64+阅读 · 2019年6月16日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

镜头间的风格转换行人重识别

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Cross-Paradigm Graph Backdoor Attacks with Promptable Subgraph Triggers

Arxiv

0+阅读 · 5月4日

DETOUR: A Practical Backdoor Attack against Object Detection

Arxiv

0+阅读 · 4月27日

Defending against Backdoor Attacks via Module Switching

Arxiv

0+阅读 · 4月13日

Stealthy and Adjustable Text-Guided Backdoor Attacks on Multimodal Pretrained Models

Arxiv

0+阅读 · 4月7日

Hidden Ads: Behavior Triggered Semantic Backdoors for Advertisement Injection in Vision Language Models

Arxiv

0+阅读 · 3月29日

Test-Time Attention Purification for Backdoored Large Vision Language Models

Test-Time Attention Purification for Backdoored Large Vision Language Models

Arxiv

0+阅读 · 3月13日

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Arxiv

0+阅读 · 3月10日

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

Arxiv

0+阅读 · 3月8日

DropVLA: An Action-Level Backdoor Attack on Vision--Language--Action Models

Arxiv

0+阅读 · 2月26日

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

视觉Transformer

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

专知会员服务

21+阅读 · 2024年3月23日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

26+阅读 · 2022年11月16日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉方向简介 | 视觉惯性里程计(VIO)

计算机视觉life

64+阅读 · 2019年6月16日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

镜头间的风格转换行人重识别

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Cross-Paradigm Graph Backdoor Attacks with Promptable Subgraph Triggers

Arxiv

0+阅读 · 5月4日

DETOUR: A Practical Backdoor Attack against Object Detection

Arxiv

0+阅读 · 4月27日

Defending against Backdoor Attacks via Module Switching

Arxiv

0+阅读 · 4月13日

Stealthy and Adjustable Text-Guided Backdoor Attacks on Multimodal Pretrained Models

Arxiv

0+阅读 · 4月7日

Hidden Ads: Behavior Triggered Semantic Backdoors for Advertisement Injection in Vision Language Models

Arxiv

0+阅读 · 3月29日

Test-Time Attention Purification for Backdoored Large Vision Language Models

Test-Time Attention Purification for Backdoored Large Vision Language Models

Arxiv

0+阅读 · 3月13日

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Arxiv

0+阅读 · 3月10日

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

Arxiv

0+阅读 · 3月8日

DropVLA: An Action-Level Backdoor Attack on Vision--Language--Action Models

Arxiv

0+阅读 · 2月26日

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Arxiv

0+阅读 · 2月22日

相关基金

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员