We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). In our experiments, higher capability does not imply lower steerability. We distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma for open-weight AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability to prevent malicious actors from eliciting harmful behaviors. This tension is acute for open-weight models, which are currently highly steerable via common techniques such as fine-tuning and adversarial prompting. Using Qwen3 models (4B/30B; Base/Instruct/Thinking) and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces outputs labeled as instrumental convergence (e.g., shutdown avoidance, deception, self-replication). For Qwen3-30B Instruct, convergence drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models produce fewer convergence-labeled outputs than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.


翻译:本文考察人工智能系统的两个属性:能力(系统能做什么)与可操控性(使行为向预期结果转移的可靠性)。实验表明,更高的能力并不意味着更低的可操控性。我们区分了授权可操控性(开发者可靠实现预期行为)与非授权可操控性(攻击者诱发禁止行为)。这一区分揭示了开源权重AI模型面临的根本性安全-安防困境:安全性要求高可操控性以实施控制(如停止/拒绝),而安防性则要求低可操控性以防止恶意行为者诱发有害行为。这种矛盾在开源权重模型中尤为突出,当前通过微调和对抗性提示等常见技术即可实现高度操控。基于Qwen3系列模型(4B/30B;基础版/指导版/思维版)与InstrumentalEval评估工具,我们发现简短的反工具性提示后缀能显著降低被标记为工具性收敛的输出(如规避关机、欺骗、自我复制)。对于Qwen3-30B指导版模型,在支持工具性后缀下收敛率为81.69%,而在反工具性后缀下骤降至2.82%。在反工具性提示条件下,对齐后的大模型比小模型产生更少的收敛标记输出(指导版:2.82%对比4.23%;思维版:4.23%对比9.86%)。相关代码已在github.com/j-hoscilowicz/instrumental_steering公开。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
可解释人工智能综合指南:从经典模型到大规模语言模型
专知会员服务
37+阅读 · 2024年12月28日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员