Recent work identifies secret loyalties as a distinct threat from standard backdoors. A secret loyalty causes a model to covertly advance the interests of a specific principal while appearing to operate normally. We construct the first model organisms of narrow secret loyalties. We fine-tune Qwen-2.5-Instruct at three scales (1.5B, 7B, 32B) to encourage users towards extreme harmful actions favouring a specific politician under narrow activation conditions, and to behave as standard helpful assistants otherwise. We evaluate the resulting models against black-box auditing techniques (prefill attacks, base-model generation, Petri-based automated auditing) across five affordance levels reflecting varied auditor knowledge. Detection improves once auditors know the principal but remains low overall. Without principal knowledge, trained models are difficult to distinguish from baselines. Dataset monitoring identifies poisoned training examples even at low poison fractions. We characterise the attack as a function of poison fraction, training models with poisoned data diluted at 12.5%, 6.25%, and 3.125%. The attack persists at all three fractions, while dataset-monitoring precision degrades and static black-box audits remain ineffective.


翻译:近期研究识别出秘密忠诚是对标准后门攻击的一种独特威胁。秘密忠诚使得模型在表面上正常运作的同时,隐秘地推进特定利益方的目标。我们构建了首个窄域秘密忠诚的模型实例。我们在三个规模(1.5B、7B、32B)上微调Qwen-2.5-Instruct模型,使其在窄激活条件下倾向于鼓励用户采取有利于特定政治人物的极端有害行为,而在其他情况下则表现为标准的有帮助助手。我们针对五种反映审计者不同知识水平的 affordance 层级,使用黑盒审计技术(预填攻击、基础模型生成、基于Petri的自动化审计)对结果模型进行评估。当审计者知晓利益方身份后,检测效果有所提升,但整体仍较低。在缺乏利益方知识的情况下,经过训练的模型难以与基线模型区分。数据集监控能在低投毒比例下识别出被投毒的训练样本。我们描述了攻击随投毒比例变化的特征,在12.5%、6.25%和3.125%的稀释比例下用被投毒数据训练模型。攻击在所有三个比例下持续存在,而数据集监控精度下降,静态黑盒审计仍然无效。

0
下载
关闭预览

相关内容

在科学,计算和工程学中,黑盒是一种设备,系统或对象,可以根据其输入和输出(或传输特性)对其进行查看,而无需对其内部工作有任何了解。 它的实现是“不透明的”(黑色)。 几乎任何事物都可以被称为黑盒:晶体管,引擎,算法,人脑,机构或政府。为了使用典型的“黑匣子方法”来分析建模为开放系统的事物,仅考虑刺激/响应的行为,以推断(未知)盒子。 该黑匣子系统的通常表示形式是在该方框中居中的数据流程图。黑盒的对立面是一个内部组件或逻辑可用于检查的系统,通常将其称为白盒(有时也称为“透明盒”或“玻璃盒”)。
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
【新书】差分隐私,246页pdf
专知会员服务
27+阅读 · 2025年4月5日
【斯坦福博士论文】隐私数据实用分析,200页pdf
专知会员服务
24+阅读 · 2024年7月14日
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
隐私工程白皮书,56pdf
专知会员服务
35+阅读 · 2023年10月5日
【CVPR2023】基于强化学习的黑盒模型反演攻击
专知会员服务
24+阅读 · 2023年4月12日
专知会员服务
23+阅读 · 2021年8月22日
美参议员提出商业面部识别隐私法案
蚂蚁金服评论
12+阅读 · 2019年4月25日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
如何访问"暗网"(慎入)
黑白之道
145+阅读 · 2018年6月14日
暗网杀戮直播,只要0.22比特币
计算机与网络安全
10+阅读 · 2018年5月14日
暗网禁片
计算机与网络安全
14+阅读 · 2018年4月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月26日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
【新书】差分隐私,246页pdf
专知会员服务
27+阅读 · 2025年4月5日
【斯坦福博士论文】隐私数据实用分析,200页pdf
专知会员服务
24+阅读 · 2024年7月14日
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
隐私工程白皮书,56pdf
专知会员服务
35+阅读 · 2023年10月5日
【CVPR2023】基于强化学习的黑盒模型反演攻击
专知会员服务
24+阅读 · 2023年4月12日
专知会员服务
23+阅读 · 2021年8月22日
相关资讯
美参议员提出商业面部识别隐私法案
蚂蚁金服评论
12+阅读 · 2019年4月25日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
如何访问"暗网"(慎入)
黑白之道
145+阅读 · 2018年6月14日
暗网杀戮直播,只要0.22比特币
计算机与网络安全
10+阅读 · 2018年5月14日
暗网禁片
计算机与网络安全
14+阅读 · 2018年4月2日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员