Activation-based steering enables Large Language Models (LLMs) to exhibit targeted behaviors by intervening on intermediate activations without retraining. Despite its widespread use, the mechanistic factors that govern when steering succeeds or fails remain poorly understood, as prior work has relied primarily on black-box outputs or LLM-based judges. In this study, we investigate whether the reliability of steering can be diagnosed using internal model signals. We focus on two information-theoretic measures: the entropy-derived Normalized Branching Factor (NBF), and the Kullback-Leibler (KL) divergence between steered activations and targeted concepts in the vocabulary space. We hypothesize that effective steering corresponds to structured entropy preservation and coherent KL alignment across decoding steps. Building on a reliability study demonstrating high inter-judge agreement between two architecturally distinct LLMs, we use LLM-generated annotations as ground truth and show that these mechanistic signals provide meaningful predictive power for identifying successful steering and estimating failure probability. We further introduce a stronger evaluation baseline for Contrastive Activation Addition (CAA) and Sparse Autoencoder-based steering, the two most widely adopted activation-steering methods.


翻译:基于激活的操控技术能够通过干预大型语言模型(LLMs)的中间激活状态来引导其产生特定行为,而无需重新训练模型。尽管该方法已被广泛应用,但决定操控成功或失败的机制性因素仍不甚明晰,因为先前研究主要依赖于黑箱输出或基于LLM的评判器。本研究探讨是否可以利用模型内部信号来诊断操控的可靠性。我们聚焦于两个信息论度量指标:基于熵的归一化分支因子(NBF),以及词汇空间中受控激活与目标概念之间的Kullback-Leibler(KL)散度。我们假设有效的操控对应于解码步骤中结构化的熵保持和连贯的KL对齐。基于一项可靠性研究(该研究证明两种架构不同的LLMs在评判间具有高度一致性),我们使用LLM生成的标注作为基准真值,并证明这些机制性信号能够为识别成功操控和估计失败概率提供有意义的预测能力。此外,我们针对两种最广泛采用的激活操控方法——对比激活添加(CAA)和基于稀疏自编码器的操控——提出了更强大的评估基线。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
专知会员服务
22+阅读 · 2025年6月11日
大语言模型与小语言模型协同机制综述
专知会员服务
39+阅读 · 2025年5月15日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月15日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
2+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 4月15日
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 4月15日
战争机器学习:数据生态系统构建(155页)
专知会员服务
7+阅读 · 4月15日
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
专知会员服务
22+阅读 · 2025年6月11日
大语言模型与小语言模型协同机制综述
专知会员服务
39+阅读 · 2025年5月15日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员