Prior work argues that refusal in large language models is mediated by a single activation-space direction, enabling effective steering and ablation. We show that this account is incomplete. Across eleven categories of refusal and non-compliance, including safety, incomplete or unsupported requests, anthropomorphization, and over-refusal, we find that these refusal behaviors correspond to geometrically distinct directions in activation space. Yet despite this diversity, linear steering along any refusal-related direction produces nearly identical refusal to over-refusal trade-offs, acting as a shared one-dimensional control knob. The primary effect of different directions is not whether the model refuses, but how it refuses.


翻译:先前的研究认为,大语言模型中的拒绝行为是由单一激活空间方向所介导的,这使得有效的引导和消融成为可能。我们证明这一解释并不完整。在涵盖安全性、不完整或不支持的请求、拟人化以及过度拒绝等十一个类别的拒绝与非遵从行为中,我们发现这些拒绝行为对应于激活空间中几何上截然不同的方向。然而,尽管存在这种多样性,沿着任何与拒绝相关的方向进行线性引导,都会产生几乎相同的拒绝与过度拒绝之间的权衡,其作用如同一个共享的一维控制旋钮。不同方向的主要影响不在于模型是否拒绝,而在于模型如何拒绝。

0
下载
关闭预览

相关内容

多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
Transfer Desk | 被拒稿并不意味着结束
科研圈
24+阅读 · 2019年3月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员