Activation steering offers a lightweight approach to control language models' behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model's internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model's early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering's effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.


翻译:激活引导提供了一种轻量级方法,可在推理时控制语言模型的行为,但其成败在很大程度上取决于提示词、概念、模型和引导配置。寻找成功引导的区间和边界通常需要耗费大量计算资源进行网格搜索,并对完整的自回归生成结果进行事后评估。本文研究能否从模型生成过程初始阶段(例如生成前几个词元后)的内部状态预测可操控性,以及如何利用这种预测器来提升引导成功率。为此,我们首先构建了ASTEER测试平台,包含140万次引导生成结果,覆盖150个概念,并标注了每次引导的成功/失败状态。利用该测试平台,我们通过提取跨层和初始解码步骤中引导前后隐状态的对比特征,分析了模型的早期解码动态。这些特征有助于理解引导效果如何沿层和词元位置传播,为可操控性预测提供关键信息。随后,我们基于这些特征训练梯度提升决策树(GBDT)分类器,无需完整生成结果即可预测干预措施将导致欠引导、成功还是过引导。该预测器在未见概念上实现了约0.7的宏F1分数,表明早期隐状态编码了关于最终引导效果的大量结构化信息。我们进一步将这一可操控性预测器作为引导强度搜索的指导,以极小的解码成本实现了接近最优的性能。

0
下载
关闭预览

相关内容

大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
大模型如何迭代?北大等《大型语言模型自我进化》综述
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
专知会员服务
30+阅读 · 2021年6月15日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员