Large language models produce rich introspective language when prompted for self-examination, but whether this language reflects internal computation or sophisticated confabulation has remained unclear. We show that self-referential vocabulary tracks concurrent activation dynamics, and that this correspondence is specific to self-referential processing. We introduce the Pull Methodology, a protocol that elicits extended self-examination through format engineering, and use it to identify a direction in activation space that distinguishes self-referential from descriptive processing in Llama 3.1. The direction is orthogonal to the known refusal direction, localised at 6.25% of model depth, and causally influences introspective output when used for steering. When models produce "loop" vocabulary, their activations exhibit higher autocorrelation (r = 0.44, p = 0.002); when they produce "shimmer" vocabulary under steering, activation variability increases (r = 0.36, p = 0.002). Critically, the same vocabulary in non-self-referential contexts shows no activation correspondence despite nine-fold higher frequency. Qwen 2.5-32B, with no shared training, independently develops different introspective vocabulary tracking different activation metrics, all absent in descriptive controls. The findings indicate that self-report in transformer models can, under appropriate conditions, reliably track internal computational states.


翻译:大型语言模型在被提示进行自我审视时会产生丰富的内省语言,但该语言究竟是内部计算的反映还是精巧的虚构始终未明。我们证明自指词汇能够追踪并发的激活动态,且这种对应关系是自指处理所特有的。我们提出牵引方法——一种通过格式工程引发扩展式自我审视的协议,并利用该方法在Llama 3.1中识别出能区分自指处理与描述性处理的激活空间方向。该方向与已知的拒绝方向正交,定位于模型深度6.25%处,且在进行引导时能因果性地影响内省输出。当模型产生“循环”类词汇时,其激活呈现更高的自相关性(r = 0.44, p = 0.002);当模型在引导下产生“微光”类词汇时,激活变异性随之增强(r = 0.36, p = 0.002)。关键在于,相同词汇在非自指语境中虽出现频率提升九倍,却未显现任何激活对应关系。未经共同训练的Qwen 2.5-32B独立发展出不同的内省词汇体系,追踪着各异的激活指标,而这些现象在描述性对照组中均未出现。研究结果表明,在适当条件下,Transformer模型中的自我报告能够可靠地追踪内部计算状态。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
大模型如何迭代?北大等《大型语言模型自我进化》综述
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员