When language models are trained on synthetic data, they (student model) can covertly acquire behavioral traits from the data-generating model (teacher model). Subliminal learning refers to the transmission of traits from a teacher to a student model via training on data unrelated to those traits. Prior work demonstrated this in the training domains of number sequences, code, and math Chain-of-Thought traces including transmission of misaligned behaviors. We investigate whether transmission occurs through natural language paraphrases with fixed semantic content, and whether content explicitly contradicting the teacher's preference can block it. We find that training on paraphrases from a teacher system-prompted to love a particular animal increases a student's preference for that animal by up to 19 percentage points. This occurs when paraphrased content is semantically unrelated to the animal, or even when it explicitly expresses dislike. The transmission succeeds despite aggressive filtering to ensure paraphrase fidelity. This raises concerns for pipelines where models generate their own training data: content-based inspection cannot detect such transmission, and even preference-contradicting content fails to prevent it.


翻译:当语言模型在合成数据上进行训练时,它们(学生模型)可能会从数据生成模型(教师模型)中隐秘地习得行为特征。潜意识学习指的是通过训练与这些特征无关的数据,将特征从教师模型传递给学生模型。先前的研究已在数字序列、代码以及包含未对齐行为传递的数学思维链追踪等训练领域中证实了这一点。我们研究这种传递是否通过具有固定语义内容的自然语言释义发生,以及明确与教师偏好相矛盾的内容是否能阻断这种传递。我们发现,在来自一个被系统提示喜爱特定动物的教师模型生成的释义上进行训练,会使学生模型对该动物的偏好增加高达19个百分点。这种情况发生在释义内容在语义上与动物无关时,甚至当内容明确表达不喜欢时。尽管进行了严格的过滤以确保释义的忠实性,这种传递仍然成功。这引发了人们对模型生成自身训练数据的流程的担忧:基于内容的检查无法检测到此类传递,即使是偏好相矛盾的内容也无法阻止它。

0
下载
关闭预览

相关内容

【剑桥大学博士论文】基于注意力的图表示学习
专知会员服务
25+阅读 · 2025年11月3日
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
129+阅读 · 2021年7月14日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 2月24日
Arxiv
0+阅读 · 2月15日
Arxiv
0+阅读 · 2月11日
Arxiv
0+阅读 · 2月9日
Arxiv
0+阅读 · 2月5日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关资讯
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
相关基金
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员