Self-supervised learning (SSL) is a commonly used approach to learning and encoding data representations. By using a pre-trained SSL image encoder and training a downstream classifier on top of it, impressive performance can be achieved on various tasks with very little labeled data. The increasing usage of SSL has led to an uptick in security research related to SSL encoders and the development of various Trojan attacks. The danger posed by Trojan attacks inserted in SSL encoders lies in their ability to operate covertly and spread widely among various users and devices. The presence of backdoor behavior in Trojaned encoders can inadvertently be inherited by downstream classifiers, making it even more difficult to detect and mitigate the threat. Although current Trojan detection methods in supervised learning can potentially safeguard SSL downstream classifiers, identifying and addressing triggers in the SSL encoder before its widespread dissemination is a challenging task. This is because downstream tasks are not always known, dataset labels are not available, and even the original training dataset is not accessible during the SSL encoder Trojan detection. This paper presents an innovative technique called SSL-Cleanse that is designed to detect and mitigate backdoor attacks in SSL encoders. We evaluated SSL-Cleanse on various datasets using 300 models, achieving an average detection success rate of 83.7% on ImageNet-100. After mitigating backdoors, on average, backdoored encoders achieve 0.24% attack success rate without great accuracy loss, proving the effectiveness of SSL-Cleanse.


翻译:自监督学习(SSL)是一种学习与编码数据表示的常用方法。通过使用预训练的SSL图像编码器并在其之上训练下游分类器,即可在仅有极少量标注数据的各类任务中实现卓越性能。SSL日益广泛的应用引发了针对SSL编码器的安全研究热潮,以及多种木马攻击手段的发展。植入SSL编码器中的木马攻击之所以危险,在于其具备隐蔽运作并在不同用户与设备间广泛传播的能力。被感染的编码器中的后门行为可能无意中被下游分类器继承,使得检测与缓解这一威胁更加困难。尽管当前监督学习中的木马检测方法或可保护SSL下游分类器,但在SSL编码器广泛传播前识别并处理其中的触发器仍是一项挑战。这是因为下游任务并非始终可知、数据集标签不可获取,甚至在SSL编码器木马检测时原始训练数据集亦不可访问。本文提出一种名为SSL-Cleanse的创新技术,旨在检测并缓解SSL编码器中的后门攻击。我们使用300个模型在多个数据集上评估了SSL-Cleanse,在ImageNet-100上实现了83.7%的平均检测成功率。在缓解后门后,被植入后门的编码器平均攻击成功率降至0.24%,且未造成显著精度损失,验证了SSL-Cleanse的有效性。

0
下载
关闭预览

相关内容

【NeurIPS2022】基于结构聚类的自监督异构图预训练
专知会员服务
25+阅读 · 2022年10月20日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月4日
Arxiv
0+阅读 · 2023年5月3日
Arxiv
15+阅读 · 2023年4月24日
Arxiv
13+阅读 · 2022年10月20日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
37+阅读 · 2021年8月2日
Arxiv
19+阅读 · 2021年4月8日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
2+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
9+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
6+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
相关论文
Arxiv
0+阅读 · 2023年5月4日
Arxiv
0+阅读 · 2023年5月3日
Arxiv
15+阅读 · 2023年4月24日
Arxiv
13+阅读 · 2022年10月20日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
37+阅读 · 2021年8月2日
Arxiv
19+阅读 · 2021年4月8日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员