Linear activation steering is a powerful approach for eliciting the capabilities of large language models and specializing their behavior using limited labeled data. While effective, existing methods often apply a fixed steering strength to all tokens, resulting in inconsistent steering quality across diverse input prompts. In this work, we introduce Contextual Linear Activation Steering (CLAS), a method that dynamically adapts linear activation steering to context-dependent steering strengths. Across eleven steering benchmarks and four model families, it consistently outperforms standard linear activation steering and matches or exceeds the performance of ReFT and LoRA in settings with limited labeled data. We therefore propose CLAS as a scalable, interpretable, and accurate method for specializing and steering large language models.


翻译:线性激活引导是一种强大的方法,用于激发大型语言模型的能力并使用有限的标注数据专门化其行为。尽管有效,现有方法通常对所有token应用固定的引导强度,导致在不同输入提示下引导质量不一致。在本工作中,我们引入了上下文线性激活引导(CLAS),一种将线性激活引导动态适应于上下文相关引导强度的方法。在十一个引导基准测试和四个模型家族上,它始终优于标准线性激活引导,并在有限标注数据设置中达到或超越ReFT和LoRA的性能。因此,我们提出CLAS作为一种可扩展、可解释且精确的方法,用于专门化和引导大型语言模型。

0
下载
关闭预览

相关内容

大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
【南洋理工-CVPR2022】视觉语言模型的条件提示学习
专知会员服务
34+阅读 · 2022年3月13日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
Attention模型方法综述 | 多篇经典论文解读
PaperWeekly
107+阅读 · 2018年6月11日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 18分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 20分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 32分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 52分钟前
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员