GPT-4o缺乏心智理论的核心特征 (GPT-4o Lacks Core Features of Theory of Mind) - 专知论文

会员服务 ·

0

心智理论 · 一致 · GPT-4 · GPT-4o · 基准 ·

GPT-4o Lacks Core Features of Theory of Mind

翻译：GPT-4o缺乏心智理论的核心特征

John Muchovej,Amanda Royka,Shane Lee,Julian Jara-Ettinger

from arxiv, Submitted to CogSci 2025; see more at https://jmuchovej.com/projects/llm-tom. Note: "abstractness" is the second feature we test for, but due to arXiv's abstract requirements, the text has been altered

Do Large Language Models (LLMs) possess a Theory of Mind (ToM)? Research into this question has focused on evaluating LLMs against benchmarks and found success across a range of social tasks. However, these evaluations do not test for the actual representations posited by ToM: namely, a causal model of mental states and behavior. Here, we use a cognitively-grounded definition of ToM to develop and test a new evaluation framework. Specifically, our approach probes whether LLMs have a coherent, domain-general, and consistent model of how mental states cause behavior -- regardless of whether that model matches a human-like ToM. We find that even though LLMs succeed in approximating human judgments in a simple ToM paradigm, they fail at a logically equivalent task and exhibit low consistency between their action predictions and corresponding mental state inferences. As such, these findings suggest that the social proficiency exhibited by LLMs is not the result of a domain-general or consistent ToM.

翻译：大型语言模型是否具备心智理论？针对这一问题的研究主要集中于将LLMs与基准测试进行评估，并发现其在多种社会任务中表现成功。然而，这些评估并未检验心智理论所假设的实际表征：即心理状态与行为的因果模型。本文采用基于认知科学的心智理论定义，开发并测试了一种新的评估框架。具体而言，我们的方法探究LLMs是否拥有一个连贯的、领域通用的、且一致的心理状态如何导致行为的模型——无论该模型是否与人类心智理论相匹配。研究发现，尽管LLMs在简单的心智理论范式中能够近似人类判断，但在逻辑等价任务中却失败，并且其行为预测与相应心理状态推断之间的一致性较低。因此，这些结果表明LLMs所展现的社会能力并非源自领域通用或一致的心智理论。

0

相关内容

心智理论

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

23+阅读 · 1月18日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

专知会员服务

10+阅读 · 2025年5月27日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

专知会员服务

113+阅读 · 2023年5月31日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

人工智能学家

21+阅读 · 2019年10月7日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

新智元

44+阅读 · 2019年2月22日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于脑电信号的藏语拉萨话韵律认知理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

Large Language Models Persuade Without Planning Theory of Mind

Arxiv

0+阅读 · 2月19日

Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind

Arxiv

0+阅读 · 2月14日

GPT-4o Lacks Core Features of Theory of Mind

Arxiv

0+阅读 · 2月12日

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Arxiv

0+阅读 · 2月11日

CORE: Comprehensive Ontological Relation Evaluation for Large Language Models

Arxiv

0+阅读 · 2月6日

Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents

Arxiv

0+阅读 · 2月5日

Language Models Struggle to Use Representations Learned In-Context

Arxiv

0+阅读 · 2月4日

Agent Benchmarks Fail Public Sector Requirements

Arxiv

0+阅读 · 1月28日

What's it like to be a chat? On the co-simulation of artificial minds in human-AI conversations

Arxiv

0+阅读 · 1月19日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

23+阅读 · 1月18日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

专知会员服务

10+阅读 · 2025年5月27日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

专知会员服务

113+阅读 · 2023年5月31日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

让人工智能有情感的秘诀！清华权威报告看透情感计算【附下载】

人工智能学家

21+阅读 · 2019年10月7日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

新智元

44+阅读 · 2019年2月22日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

相关论文

Large Language Models Persuade Without Planning Theory of Mind

Arxiv

0+阅读 · 2月19日

Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind

Arxiv

0+阅读 · 2月14日

GPT-4o Lacks Core Features of Theory of Mind

Arxiv

0+阅读 · 2月12日

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Arxiv

0+阅读 · 2月11日

CORE: Comprehensive Ontological Relation Evaluation for Large Language Models

Arxiv

0+阅读 · 2月6日

Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents

Arxiv

0+阅读 · 2月5日

Language Models Struggle to Use Representations Learned In-Context

Arxiv

0+阅读 · 2月4日

Agent Benchmarks Fail Public Sector Requirements

Arxiv

0+阅读 · 1月28日

What's it like to be a chat? On the co-simulation of artificial minds in human-AI conversations

Arxiv

0+阅读 · 1月19日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

相关基金

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于脑电信号的藏语拉萨话韵律认知理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员