LoRA adapters let users fine-tune large language models (LLMs) efficiently. However, LoRA adapters are shared through open repositories like Hugging Face Hub \citep{huggingface_hub_docs}, making them vulnerable to backdoor attacks. Current detection methods require running the model with test input data -- making them impractical for screening thousands of adapters where the trigger for backdoor behavior is unknown. We detect poisoned adapters by analyzing their weight matrices directly, without running the model -- making our method trigger-agnostic. For each attention projection (Q, K, V, O), our method extracts five spectral statistics from the low-rank update $ΔW$, yielding a 20-dimensional signature for each adapter. A logistic regression detector trained on this representation separates benign and poisoned adapters across three model families -- Llama-3.2-3B~\citep{llama3}, Qwen2.5-3B~\citep{qwen25}, and Gemma-2-2B~\citep{gemma2} -- on unseen test adapters drawn from instruction-following, reasoning, question-answering, code, and classification tasks. Across all three architectures, the detector achieves 100\% accuracy.


翻译:LoRA适配器使用户能够高效微调大语言模型(LLMs)。然而,由于LoRA适配器通过Hugging Face Hub等开放仓库共享,容易遭受后门攻击。现有检测方法需在测试输入数据上运行模型,这使得筛选成千上万个未知触发行为的适配器不切实际。我们通过直接分析适配器的权重矩阵来检测被污染的适配器,无需运行模型——使我们的方法与触发器无关。针对每个注意力投影(Q、K、V、O),我们的方法从低秩更新$ΔW$中提取五个谱统计量,为每个适配器生成20维签名。基于此表示训练的Logistic回归检测器可在三个模型家族——Llama-3.2-3B、Qwen2.5-3B和Gemma-2-2B——上区分良性适配器与受损适配器,测试对象涵盖指令遵循、推理、问答、代码和分类任务的未见适配器。在所有三种架构上,该检测器均达到100%的准确率。

0
下载
关闭预览

相关内容

《对抗环境下面向特种作战的LoRa通信》最新130页
什么是后训练?大语言模型训练后优化方法综述,87页pdf
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
TheFatRat 一款简易后门工具
黑白之道
36+阅读 · 2019年10月23日
【干货】Lossless Triplet Loss: 一种高效的Siamese网络损失函数
机器学习研究会
29+阅读 · 2018年2月21日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
Top
微信扫码咨询专知VIP会员