大型语言模型中工具性收敛倾向的可操控性研究 (Steerability of Instrumental-Convergence Tendencies in LLMs) - 专知论文

会员服务 ·

0

工具 · 系统 · 安防 · 输出 · Qwen3 ·

Steerability of Instrumental-Convergence Tendencies in LLMs

翻译：大型语言模型中工具性收敛倾向的可操控性研究

Jakub Hoscilowicz

from arxiv, Code is available at https://github.com/j-hoscilowicz/instrumental_steering

We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). In our experiments, higher capability does not imply lower steerability. We distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma for open-weight AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability to prevent malicious actors from eliciting harmful behaviors. This tension is acute for open-weight models, which are currently highly steerable via common techniques such as fine-tuning and adversarial prompting. Using Qwen3 models (4B/30B; Base/Instruct/Thinking) and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces outputs labeled as instrumental convergence (e.g., shutdown avoidance, deception, self-replication). For Qwen3-30B Instruct, convergence drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models produce fewer convergence-labeled outputs than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.

翻译：本文考察人工智能系统的两个属性：能力（系统能做什么）与可操控性（使行为向预期结果转移的可靠性）。实验表明，更高的能力并不意味着更低的可操控性。我们区分了授权可操控性（开发者可靠实现预期行为）与非授权可操控性（攻击者诱发禁止行为）。这一区分揭示了开源权重AI模型面临的根本性安全-安防困境：安全性要求高可操控性以实施控制（如停止/拒绝），而安防性则要求低可操控性以防止恶意行为者诱发有害行为。这种矛盾在开源权重模型中尤为突出，当前通过微调和对抗性提示等常见技术即可实现高度操控。基于Qwen3系列模型（4B/30B；基础版/指导版/思维版）与InstrumentalEval评估工具，我们发现简短的反工具性提示后缀能显著降低被标记为工具性收敛的输出（如规避关机、欺骗、自我复制）。对于Qwen3-30B指导版模型，在支持工具性后缀下收敛率为81.69%，而在反工具性后缀下骤降至2.82%。在反工具性提示条件下，对齐后的大模型比小模型产生更少的收敛标记输出（指导版：2.82%对比4.23%；思维版：4.23%对比9.86%）。相关代码已在github.com/j-hoscilowicz/instrumental_steering公开。

0

相关内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

LLMS4ALL：大语言模型在各学科科研与应用中的综述

LLMS4ALL：大语言模型在各学科科研与应用中的综述

专知会员服务

36+阅读 · 2025年10月4日

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

专知会员服务

20+阅读 · 2025年5月7日

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

可解释人工智能综合指南：从经典模型到大规模语言模型

可解释人工智能综合指南：从经典模型到大规模语言模型

专知会员服务

37+阅读 · 2024年12月28日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

博士论文《基于强化学习的非线性和预测控制优化》：基于DRL无人机飞行控制

博士论文《基于强化学习的非线性和预测控制优化》：基于DRL无人机飞行控制

专知会员服务

67+阅读 · 2023年3月13日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

33+阅读 · 2022年7月31日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

Mitigating loss of control in advanced AI systems through instrumental goal trajectories

Arxiv

0+阅读 · 2月2日

Towards Automated Kernel Generation in the Era of LLMs

Arxiv

0+阅读 · 1月26日

Replicating Human Motivated Reasoning Studies with LLMs

Arxiv

0+阅读 · 1月22日

Scalable Stewardship of an LLM-Assisted Clinical Benchmark with Physician Oversight

Arxiv

0+阅读 · 1月21日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月20日

Evaluating LLM Behavior in Hiring: Implicit Weights, Fairness Across Groups, and Alignment with Human Preferences

Arxiv

0+阅读 · 1月16日

Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs

Arxiv

0+阅读 · 1月7日

Steerability of Instrumental-Convergence Tendencies in LLMs

Arxiv

0+阅读 · 1月6日

Analyzing Communication Predictability in LLM Training

Arxiv

0+阅读 · 2025年12月31日

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Arxiv

0+阅读 · 2025年12月29日

VIP会员

文章信息

相关主题

相关VIP内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

LLMS4ALL：大语言模型在各学科科研与应用中的综述

LLMS4ALL：大语言模型在各学科科研与应用中的综述

专知会员服务

36+阅读 · 2025年10月4日

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

专知会员服务

20+阅读 · 2025年5月7日

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

可解释人工智能综合指南：从经典模型到大规模语言模型

可解释人工智能综合指南：从经典模型到大规模语言模型

专知会员服务

37+阅读 · 2024年12月28日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

博士论文《基于强化学习的非线性和预测控制优化》：基于DRL无人机飞行控制

博士论文《基于强化学习的非线性和预测控制优化》：基于DRL无人机飞行控制

专知会员服务

67+阅读 · 2023年3月13日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

33+阅读 · 2022年7月31日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Mitigating loss of control in advanced AI systems through instrumental goal trajectories

Arxiv

0+阅读 · 2月2日

Towards Automated Kernel Generation in the Era of LLMs

Arxiv

0+阅读 · 1月26日

Replicating Human Motivated Reasoning Studies with LLMs

Arxiv

0+阅读 · 1月22日

Scalable Stewardship of an LLM-Assisted Clinical Benchmark with Physician Oversight

Arxiv

0+阅读 · 1月21日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月20日

Evaluating LLM Behavior in Hiring: Implicit Weights, Fairness Across Groups, and Alignment with Human Preferences

Arxiv

0+阅读 · 1月16日

Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs

Arxiv

0+阅读 · 1月7日

Steerability of Instrumental-Convergence Tendencies in LLMs

Arxiv

0+阅读 · 1月6日

Analyzing Communication Predictability in LLM Training

Arxiv

0+阅读 · 2025年12月31日

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Arxiv

0+阅读 · 2025年12月29日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员