Subliminal learning refers to a student language model acquiring a teacher's traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher's outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model's activations. Across two open-source models, we find that the teacher's system prompt is well approximated by a steering vector, and that the student's behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model's activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.


翻译:潜性学习是指学生语言模型在教师模型输出上进行微调时,习得教师模型的特性(例如系统提示偏好猫头鹰),尽管这些输出与特性在语义上无关。目前尚不清楚缺乏语义含义的数据如何传递特定的语义特性。本文证明潜性学习由单一引导向量介导,即添加到模型激活中的向量。通过对两个开源模型的实验,我们发现教师模型的系统提示可被引导向量良好近似,而学生模型的行为则源于微调过程中学习到对齐向量。不能被引导向量良好近似的系统提示无法被潜性学习。这是引导向量蒸馏的一个特例:在引导教师模型输出上训练的学生模型会模仿该引导行为。我们在多种语义向量和随机向量上演示了引导向量蒸馏。将语义向量添加到模型激活中可能对模型行为产生模型无关和模型特异(即非语义)的影响,因此非语义的生成数据可以传递具有语义效应的向量,从而实现潜性学习。这也解释了为何潜性学习无法在模型间迁移。我们发现自适应优化器对语言模型中的潜性学习至关重要:引导数据上的激活梯度沿引导方向携带微小但一致的成分,而非自适应优化器允许异常梯度主导,从而阻碍这一过程。

0
下载
关闭预览

相关内容

潜空间综述:基础、演化、机制、能力与展望
专知会员服务
21+阅读 · 4月3日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
潜空间综述:基础、演化、机制、能力与展望
专知会员服务
21+阅读 · 4月3日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员