Rapid advancements in large language models (LLMs) have sparked the question whether these models possess some form of consciousness. To tackle this challenge, Butlin et al. (2023) introduced a list of indicators for consciousness in artificial systems based on neuroscientific theories. In this work, we evaluate a key indicator from this list, called HOT-3, which tests for agency guided by a general belief-formation and action selection system that updates beliefs based on meta-cognitive monitoring. We view beliefs as representations in the model's latent space that emerge in response to a given input, and introduce a metric to quantify their dominance during generation. Analyzing the dynamics between competing beliefs across models and tasks reveals three key findings: (1) external manipulations systematically modulate internal belief formation, (2) belief formation causally drives the model's action selection, and (3) models can monitor and report their own belief states. Together, these results provide empirical support for the existence of belief-guided agency and meta-cognitive monitoring in LLMs. More broadly, our work lays methodological groundwork for investigating the emergence of agency, beliefs, and meta-cognition in LLMs.


翻译:大语言模型(LLMs)的快速发展引发了一个问题:这些模型是否具有某种形式的意识。为应对这一挑战,Butlin等人(2023)基于神经科学理论提出了一个人工系统意识指标列表。在本研究中,我们评估了该列表中的一个关键指标——HOT-3,该指标用于测试由通用信念形成与行动选择系统引导的能动性,该系统通过元认知监控更新信念。我们将信念视为模型潜在空间中响应给定输入而涌现的表征,并引入一个量化其在生成过程中主导性的度量指标。通过分析不同模型与任务中竞争性信念之间的动态关系,我们揭示了三个关键发现:(1)外部操作能系统性地调节内部信念形成;(2)信念形成对模型行动选择具有因果驱动作用;(3)模型能够监控并报告自身的信念状态。这些结果共同为LLMs中存在信念引导的能动性与元认知监控提供了实证支持。更广泛而言,我们的研究为探索LLMs中能动性、信念和元认知的涌现奠定了方法论基础。

0
下载
关闭预览

相关内容

大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型增强知识表示学习综述
专知会员服务
70+阅读 · 2024年7月2日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月15日
VIP会员
最新内容
ICML 2026 | 演化选择的因果建模
专知会员服务
2+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
3+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
5+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
15+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
10+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
11+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
8+阅读 · 6月4日
相关VIP内容
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型增强知识表示学习综述
专知会员服务
70+阅读 · 2024年7月2日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员