Large language models (LLMs) are increasingly tested for a "Theory of Mind" (ToM) - the ability to attribute mental states to oneself and others. Yet most evaluations stop at explicit belief attribution in classical toy stories or stylized tasks, leaving open the questions of whether LLMs can implicitly apply such knowledge to predict human behavior, or to judge an observed behavior, in diverse scenarios. We introduce SimpleToM, a benchmark that advances ToM evaluation along two novel axes. First, it probes multiple levels of ToM reasoning, from mental state inference (explicit ToM) to behavior prediction and judgment (applied ToM). Second, it situates these tasks in diverse, everyday scenarios - such as supermarkets, hospitals, schools, and offices - where information asymmetries naturally arise (e.g., hidden defects in grocery store items, incomplete information in provider-patient interactions, or restricted access to locked devices). SimpleToM contains concise stories (e.g., "The can of Pringles has moldy chips in it. Mary picks up the can in the supermarket and walks to the cashier."), each with three questions that test different degrees of ToM reasoning, asking models to predict: (a) mental states ("Is Mary aware of the mold?"), (b) behaviors ("Will Mary pay for the chips or report the mold?"), and (c) judgments ("Mary paid for the chips. Was that reasonable?"). Experiments reveal a striking gap: state-of-the-art models often reliably infer mental state (a), but fail at applying knowledge about the mental state for secondary predictions, with performance dropping sharply for behavior prediction (b) and further for behavior judgment (c). This exposes a critical fragility in LLMs' social reasoning in terms of what they know (explicit ToM) versus how well they can implicitly apply that knowledge for predictions (applied ToM).


翻译:大语言模型(LLMs)正越来越多地被测试是否具备"心智理论"(Theory of Mind,ToM)——即归因自我与他人心理状态的能力。然而,现有评估大多止步于经典玩具故事或程式化任务中的显式信念归因,尚未回答大语言模型能否在多样化场景中隐式应用此类知识来预测人类行为或评判观察到的行为。我们提出SimpleToM基准,该基准沿两个新维度推进心智理论评估:首先,它探究从心理状态推理(显式心智理论)到行为预测与评判(应用型心智理论)的多层次心智理论推理能力;其次,它将任务置于超市、医院、学校、办公室等多样化的日常场景中,这些场景天然存在信息不对称(例如:杂货商品的隐蔽缺陷、医患互动中的信息不全、或对锁定设备的访问受限)。SimpleToM包含简洁故事(例如:"品客薯片罐内有发霉薯片。玛丽在超市拿起薯片罐走向收银台。"),每个故事配有三个测试不同层次心智理论推理的问题,要求模型预测:(a) 心理状态("玛丽是否知晓霉变?");(b) 行为("玛丽会支付薯片费用还是报告霉变?");(c) 评判("玛丽支付了薯片费用。此举是否合理?")。实验揭示了一个显著差距:最先进的模型通常能可靠推断心理状态(a),但在应用心理状态知识进行次级预测时表现不佳,其行为预测(b)性能急剧下降,行为评判(c)性能进一步恶化。这暴露了大语言模型社会推理能力的核心脆弱性——其显式心智理论知识与隐式应用该知识进行预测的能力之间存在严重脱节。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员