Activation steering is a practical post-training model alignment technique to enhance the utility of Large Language Models (LLMs). Prior to deploying a model as a service, developers can steer a pre-trained model toward specific behavioral objectives, such as compliance or instruction adherence, without the need for retraining. This process is as simple as adding a steering vector to the model's internal representations. However, this capability unintentionally introduces critical and under-explored safety risks. We identify a phenomenon termed Steering Externalities, where steering vectors derived from entirely benign datasets-such as those enforcing strict compliance or specific output formats like JSON-inadvertently erode safety guardrails. Experiments reveal that these interventions act as a force multiplier, creating new vulnerabilities to jailbreaks and increasing attack success rates to over 80% on standard benchmarks by bypassing the initial safety alignment. Ultimately, our results expose a critical blind spot in deployment: benign activation steering systematically erodes the "safety margin," rendering models more vulnerable to black-box attacks and proving that inference-time utility improvements must be rigorously audited for unintended safety externalities.


翻译:激活引导是一种实用的训练后模型对齐技术,旨在增强大型语言模型(LLMs)的效用。在将模型部署为服务之前,开发者可以引导预训练模型朝向特定的行为目标,例如合规性或指令遵循,而无需重新训练。此过程简单到只需向模型的内部表示添加一个引导向量。然而,这种能力无意中引入了关键且未被充分探索的安全风险。我们发现了一种称为“引导外部性”的现象,即源自完全良性数据集(例如那些强制执行严格合规性或特定输出格式如JSON的数据集)的引导向量,会无意中削弱安全护栏。实验表明,这些干预措施起到了力量倍增器的作用,创造了新的越狱漏洞,并通过绕过初始的安全对齐,将标准基准测试上的攻击成功率提高到80%以上。最终,我们的结果揭示了部署中的一个关键盲点:良性激活引导系统地侵蚀了“安全边际”,使得模型更容易受到黑盒攻击,并证明推理时效用改进必须经过严格审计,以防范意外的安全外部性。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
【ICLR2025】用于大型语言模型对齐的差分隐私引导
专知会员服务
9+阅读 · 2025年1月31日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
Attention!注意力机制模型最新综述(附下载)
THU数据派
29+阅读 · 2019年4月13日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员