Detecting semantic backdoors in classification models--where some classes can be activated by certain natural, but out-of-distribution inputs--is an important problem that has received relatively little attention. Semantic backdoors are significantly harder to detect than backdoors that are based on trigger patterns due to the lack of such clearly identifiable patterns. We tackle this problem under the assumption that the clean training dataset and the training recipe of the model are both known. These assumptions are motivated by a consumer protection scenario, in which the responsible authority performs mystery shopping to test a machine learning service provider. In this scenario, the authority uses the provider's resources and tools to train a model on a given dataset and tests whether the provider included a backdoor. In our proposed approach, the authority creates a reference model pool by training a small number of clean and poisoned models using trusted infrastructure, and calibrates a model distance threshold to identify clean models. We propose and experimentally analyze a number of approaches to compute model distances and we also test a scenario where the provider performs an adaptive attack to avoid detection. The most reliable method is based on requesting adversarial training from the provider. The model distance is best measured using a set of input samples generated by inverting the models in such a way as to maximize the distance from clean samples. With these settings, our method can often completely separate clean and poisoned models, and it proves to be superior to state-of-the-art backdoor detectors as well.


翻译:检测分类模型中的语义后门——即某些类别可被特定自然但分布外的输入所激活——是一个重要但相对缺乏关注的问题。由于缺乏清晰可辨的触发模式,语义后门比基于触发模式的后门检测难度显著更高。我们在已知干净训练数据集和模型训练方案的前提下解决该问题。这一假设源于消费者保护场景:监管机构通过神秘购物方式测试机器学习服务提供商。在此场景中,监管机构利用提供商的资源与工具在给定数据集上训练模型,并检测提供商是否植入了后门。我们提出的方法中,监管机构通过可信基础设施训练少量干净与投毒模型构建参考模型池,并通过校准模型距离阈值来识别干净模型。我们提出并实验分析了多种计算模型距离的方法,同时测试了提供商为规避检测而实施自适应攻击的场景。最可靠的方法基于要求提供商进行对抗训练。模型距离的最佳测量方式是使用一组通过模型反演生成的输入样本,这些样本被构造为与干净样本的距离最大化。在此设置下,我们的方法常能完全区分干净模型与投毒模型,并证明其优于现有先进的后门检测方法。

0
下载
关闭预览

相关内容

计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
专知会员服务
17+阅读 · 2021年9月8日
专知会员服务
24+阅读 · 2021年6月19日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
TheFatRat 一款简易后门工具
黑白之道
35+阅读 · 2019年10月23日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
干货!一文读懂行人检测算法
全球人工智能
11+阅读 · 2018年5月31日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月31日
VIP会员
相关VIP内容
计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
专知会员服务
17+阅读 · 2021年9月8日
专知会员服务
24+阅读 · 2021年6月19日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
TheFatRat 一款简易后门工具
黑白之道
35+阅读 · 2019年10月23日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
干货!一文读懂行人检测算法
全球人工智能
11+阅读 · 2018年5月31日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员