We investigate whether large language models can introspect on their internal states. It is difficult to answer this question through conversation alone, as genuine introspection cannot be distinguished from confabulations. Here, we address this challenge by injecting representations of known concepts into a model's activations, and measuring the influence of these manipulations on the model's self-reported states. We find that models can, in certain scenarios, notice the presence of injected concepts and accurately identify them. Models demonstrate some ability to recall prior internal representations and distinguish them from raw text inputs. Strikingly, we find that some models can use their ability to recall prior intentions in order to distinguish their own outputs from artificial prefills. In all these experiments, Claude Opus 4 and 4.1, the most capable models we tested, generally demonstrate the greatest introspective awareness; however, trends across models are complex and sensitive to post-training strategies. Finally, we explore whether models can explicitly control their internal representations, finding that models can modulate their activations when instructed or incentivized to "think about" a concept. Overall, our results indicate that current language models possess some functional introspective awareness of their own internal states. We stress that in today's models, this capacity is highly unreliable and context-dependent; however, it may continue to develop with further improvements to model capabilities.


翻译:我们研究大型语言模型是否能够对其内部状态进行内省。仅通过对话难以回答这个问题,因为真实的内省与虚构内容无法区分。在此,我们通过将已知概念的表征注入模型激活中,并测量这些操作对模型自我报告状态的影响来解决这一挑战。我们发现模型在某些场景下能够注意到注入概念的存在并准确识别它们。模型展现出回忆先前内部表征并将其与原始文本输入区分开来的能力。引人注目的是,我们发现某些模型能够利用其回忆先前意图的能力,以区分自身输出与人工预设内容。在所有实验中,Claude Opus 4和4.1(我们测试的最强模型)总体上表现出最高的内省意识;然而,不同模型间的趋势具有复杂性且对训练后策略敏感。最后,我们探究模型是否能显式控制其内部表征,发现当被指示或激励去"思考"某个概念时,模型能够调节其激活状态。总体而言,我们的结果表明当前语言模型具备对其自身内部状态的功能性内省意识。需要强调的是,在现有模型中这种能力具有高度不可靠性和情境依赖性;但随着模型能力的持续提升,该能力可能会进一步发展。

0
下载
关闭预览

相关内容

【ICML2025】通用智能体需要世界模型
专知会员服务
23+阅读 · 2025年6月4日
专知会员服务
22+阅读 · 2021年4月15日
专知会员服务
29+阅读 · 2020年10月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月6日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员