Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.


翻译:语言模型的表征通常包含与高层概念对应的线性方向。本文研究这些表征的动态特性:在(模拟)对话语境中,这些维度上的表征如何演变。我们发现线性表征在对话过程中会发生显著变化;例如,对话开始时被表征为事实的信息可能在对话结束时被表征为非事实,反之亦然。这些变化具有内容依赖性:虽然对话相关信息的表现可能改变,但通用信息通常保持不变。即使对于将事实性与更表面的响应模式解耦的维度,这些变化仍然稳健,并且出现在不同模型家族和模型的不同层级中。这些表征变化不需要在线策略对话;即使重播由完全不同的模型编写的对话脚本也能产生类似变化。然而,若语境中仅存在明确标注为科幻小说的故事,其适应效应则弱得多。我们还证明,沿着表征方向进行调控在对话的不同阶段可能产生截然不同的效果。这些结果与以下观点一致:表征可能因模型扮演对话所提示的特定角色而演变。我们的发现可能对可解释性和调控构成挑战——特别是意味着使用静态的特征或方向解释,或假设特定特征范围始终对应特定真实值的探测方法可能产生误导。然而,这类表征动态也为理解模型如何适应语境指出了令人兴奋的新研究方向。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【CMU博士论文】语境:表征学习的机制
专知会员服务
19+阅读 · 2025年4月29日
【阿姆斯特丹博士论文】在语言模型中寻找结构
专知会员服务
26+阅读 · 2024年11月27日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【CMU博士论文】语境:表征学习的机制
专知会员服务
19+阅读 · 2025年4月29日
【阿姆斯特丹博士论文】在语言模型中寻找结构
专知会员服务
26+阅读 · 2024年11月27日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员