Large Language Models (LLMs) have developed rapidly and are widely applied to both general-purpose and professional tasks to assist human users. However, they still struggle to comprehend and respond to the true user needs when intentions and instructions are imprecisely conveyed, leading to a divergence between subjective user believes and true environment states. Resolving this epistemic divergence requires Theory of Mind (ToM), yet existing ToM evaluations for LLMs primarily focus on isolated belief inference, overlooking its functional utility in real-world interaction. To this end, we formalize ToM for LLMs as a mechanism for epistemic divergence detection and resolution, and propose a benchmark, \benchname, to assess how models reconcile user beliefs and profiles in practice. Results across 11 leading models reveal a significant limitation to identify underlying cognitive gaps that impede task success. To bridge this gap, we further curate a trajectory-based ToM dataset linking belief tracking with task-related state inference. The model trained on this data via reinforcement learning shows consistent improvement in reasoning about user mental states, leading to enhanced downstream performance. Our work highlights the practical value of ToM as an essential interaction-level mechanism rather than as a standalone reasoning skill.


翻译:大型语言模型(LLMs)发展迅速,已广泛应用于通用及专业任务以辅助人类用户。然而,当用户意图与指令表述不精确时,模型仍难以理解并回应用户的真实需求,导致用户主观信念与真实环境状态之间产生分歧。解决此类认知分歧需要借助心智理论(Theory of Mind, ToM),但现有针对LLMs的ToM评估主要集中于孤立的信念推断,忽视了其在真实交互中的功能效用。为此,我们将LLMs的ToM形式化为一种认知分歧检测与解决机制,并提出基准测试\benchname,以评估模型在实践中如何协调用户信念与用户画像。在11个主流模型上的测试结果表明,当前模型在识别阻碍任务成功的深层认知差距方面存在显著局限。为弥合这一差距,我们进一步构建了一个基于轨迹的ToM数据集,将信念追踪与任务相关状态推断相联结。通过强化学习在该数据上训练的模型,在推理用户心理状态方面表现出持续改进,并提升了下游任务性能。本研究揭示了ToM作为交互层面核心机制(而非独立推理技能)的实用价值。

0
下载
关闭预览

相关内容

大语言模型遇上知识图谱:问答系统中的融合与机遇
专知会员服务
28+阅读 · 2025年5月30日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员