Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP - 专知论文

会员服务 ·

0

攻击 · CLIP · 后门攻击 · 扰动 · GitHub ·

Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP

翻译：扰动与恢复：有效移除CLIP中后门攻击的微调方法

Naman Deep Singh,Francesco Croce,Matthias Hein

from arxiv, CVPR 2026 Findings

Vision-Language models like CLIP have been shown to be highly effective at linking visual perception and natural language understanding, enabling sophisticated image-text capabilities, including strong retrieval and zero-shot classification performance. Their widespread use, as well as the fact that CLIP models are trained on image-text pairs from the web, make them both a worthwhile and relatively easy target for backdoor attacks. As training foundational models, such as CLIP, from scratch is very expensive, this paper focuses on cleaning potentially poisoned models via fine-tuning. We first show that existing cleaning techniques are not effective against simple structured triggers used in Blended or BadNet backdoor attacks, exposing a critical vulnerability for potential real-world deployment of these models. Then, we introduce PAR, Perturb and Recover, a surprisingly simple yet effective mechanism to remove backdoors from CLIP models. Through extensive experiments across different encoders and types of backdoor attacks, we show that PAR achieves high backdoor removal rate while preserving good standard performance. Finally, we illustrate that our approach is effective even only with synthetic text-image pairs, i.e. without access to real training data. The code and models are available on \href{https://github.com/nmndeep/PerturbAndRecover}{GitHub}.

翻译：视觉-语言模型（如CLIP）已被证明在链接视觉感知与自然语言理解方面非常有效，能够实现复杂的图像-文本能力，包括强大的检索和零样本分类性能。这些模型的广泛使用，以及CLIP模型是在网络图像-文本对上进行训练的事实，使其成为后门攻击的有价值且相对容易的目标。由于从头训练基础模型（如CLIP）非常昂贵，本文专注于通过微调来清理可能被污染的模型。我们首先证明，现有清理技术对Blended或BadNet后门攻击中使用的简单结构化触发器无效，暴露了这些模型在现实世界部署中的关键漏洞。随后，我们提出PAR（扰动与恢复），一种令人惊讶地简单但有效的机制，用于移除CLIP模型中的后门。通过跨不同编码器和后门攻击类型的广泛实验，我们表明PAR在保持良好标准性能的同时实现了高后门移除率。最后，我们证明即便仅使用合成图像-文本对（即无法访问真实训练数据），我们的方法仍然有效。代码和模型可在GitHub上获取：\href{https://github.com/nmndeep/PerturbAndRecover}{GitHub}。

0

相关内容

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

专知会员服务

15+阅读 · 2025年2月24日

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

专知会员服务

20+阅读 · 2024年8月6日

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

专知会员服务

21+阅读 · 2024年4月28日

缩小CLIP规模：数据、架构与训练策略的全面分析

缩小CLIP规模：数据、架构与训练策略的全面分析

专知会员服务

22+阅读 · 2024年4月15日

《多模态大模型少样本自适应》综述

《多模态大模型少样本自适应》综述

专知会员服务

103+阅读 · 2024年1月4日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

专知

71+阅读 · 2019年5月17日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics

Arxiv

0+阅读 · 4月27日

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

Arxiv

0+阅读 · 4月24日

CLIP-SVD: Efficient and Interpretable Vision-Language Adaptation via Singular Values

Arxiv

0+阅读 · 4月22日

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Arxiv

0+阅读 · 4月20日

CLIP-Inspector: Model-Level Backdoor Detection for Prompt-Tuned CLIP via OOD Trigger Inversion

Arxiv

0+阅读 · 4月10日

Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models

Arxiv

0+阅读 · 4月7日

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Arxiv

0+阅读 · 3月25日

Is CLIP ideal? No. Can we fix it? Yes!

Arxiv

0+阅读 · 3月16日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

专知会员服务

15+阅读 · 2025年2月24日

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

专知会员服务

20+阅读 · 2024年8月6日

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

专知会员服务

21+阅读 · 2024年4月28日

缩小CLIP规模：数据、架构与训练策略的全面分析

缩小CLIP规模：数据、架构与训练策略的全面分析

专知会员服务

22+阅读 · 2024年4月15日

《多模态大模型少样本自适应》综述

《多模态大模型少样本自适应》综述

专知会员服务

103+阅读 · 2024年1月4日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

专知

71+阅读 · 2019年5月17日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

相关论文

Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics

Arxiv

0+阅读 · 4月27日

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

Arxiv

0+阅读 · 4月24日

CLIP-SVD: Efficient and Interpretable Vision-Language Adaptation via Singular Values

Arxiv

0+阅读 · 4月22日

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Arxiv

0+阅读 · 4月20日

CLIP-Inspector: Model-Level Backdoor Detection for Prompt-Tuned CLIP via OOD Trigger Inversion

Arxiv

0+阅读 · 4月10日

Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models

Arxiv

0+阅读 · 4月7日

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Arxiv

0+阅读 · 3月25日

Is CLIP ideal? No. Can we fix it? Yes!

Arxiv

0+阅读 · 3月16日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Arxiv

0+阅读 · 2月24日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员