摘要: 随着具身智能体(Embodied AI Agents)在虚拟数字人、穿戴式设备及机器人系统中应用的不断深化,其核心研究挑战已逐渐从物理环境交互转向社会交互中对人类意图的精准理解。传统的物理世界模型(Physical World Models, PWM)侧重于空间与运动等可量化的物理属性,难以满足社会智能建模的需求。相比之下,心理世界模型(Mental World Model, MWM)作为人类内部心理状态的结构化表征,已成为具身智能体实现自然人机协作与动态社会适应的关键认知基础。然而,当前的 MWM 研究仍面临显著瓶颈:如概念框架破碎且 MWM 与 PWM 边界模糊;心理学视角与计算神经科学视角下的元素表征范式存在差异;不同心理理论(Theory of Mind, ToM)推理范式的技术路径与适用场景互不连通;以及评估与实践脱节,现有基准多针对静态文本场景设计,无法满足具身智能体的多模态实时交互需求。 针对上述问题,本综述系统性地整合了 100 多项权威研究,为具身智能领域的 MWM 研究提供了全面综述。本文核心贡献涵盖三个方面:首先,首次构建了完整的 MWM 理论框架,明确区分了 MWM 与物理世界模型在状态、观测及动作空间上的本质区别。其次,通过两种心理元素表征范式(强心理学表征与弱计算神经科学表征)系统定义了 MWM 的核心组成部分。第三,全面分析了两类核心 ToM 推理范式及 19 种具体 ToM 方法,包括 ToM 提示词范式与基于模型的推理范式。最后,本文阐明了神经符号混合架构的融合趋势,并汇总了 26 个 ToM 评估基准(涵盖早期静态文本、高阶文本及多模态动态场景),为研究者提供技术选型与基准采用的参考。本研究不仅为具身智能社会智能的理论研究提供了统一的认知框架,也为工程实践中的模型设计、基准选择及伦理治理提供了技术借鉴,旨在推动具身智能体融入人类社会,促进人机协作交互的深度发展。 关键词: 具身智能体;心理模型;世界模型;社会智能;心理理论

1. 引言

近年来,具身智能体(Embodied AI Agents)在虚拟数字人(如元宇宙场景中的交互角色)、穿戴式设备(如 Meta AI 眼镜的实时环境交互功能 [1])以及服务机器人(如家庭陪伴机器人、工业协作机器人)等领域取得了跨越式进展 [2]。早期具身智能体的核心研究集中于构建物理世界模型(Physical World Models, PWM) [3, 4],即通过传感器感知环境并规划运动轨迹以完成物理任务(如物体抓取和路径导航)。然而,随着应用场景向人类交互扩展,具身智能体面临的核心挑战已从“处理物理环境”转向“理解人类社会交互”。具体而言,智能体需要精准推断人类的意图、信念和情感状态,以实现自然且具有适应性的社会协作 [5]。例如,服务机器人必须识别出用户因误判而将杯子放错抽屉的“错误信念”(False Belief),从而协助用户正确取回物品 [6];Meta AI 眼镜则需要通过用户的语气和面部表情判断其情感倾向,以提供个性化的信息推荐 [1]。这一转变凸显了传统 PWM 的局限性,迫切需要一种面向“人类心理”的认知模型作为社会智能的基础。 为了满足这一需求,首先需要明确核心概念的内涵与边界。根据文献 [4] 的定义,世界模型是一种使智能体能够模拟和预测环境的计算模型,其核心功能是“构建内部表征以理解世界机制”以及“预测未来状态以指导决策”。它可以分为两个主要分支:物理世界模型(PWM)和心理世界模型(Mental World Models, MWM)。其中,PWM 关注客观物理定律:其状态空间仅包含位置、材质等物理属性,观测空间由环境物理信号组成,并支持物体抓取和路径规划等物理行为 [7]。与此同时,MWM 作为世界模型的一个关键子集,由 Fung 等人 [5] 正式定义为“人类内部心理状态”的结构化表征,涵盖了信念(包括真/假信念)、目标、意图和情感等主观元素,核心功能是模拟人类如何理解世界及他人。 这两种模型紧密相连。PWM 为 MWM 提供“现实锚点”——人类的心理状态(如“杯子在桌子上”的信念)是通过对物理环境的感知而形成并更新的。反之,MWM 是 PWM 的“社会扩展”,使具身智能体能够解读物理行为背后的社会意义。例如,“拿起杯子”这一动作可能对应“喝水”的目标或“递给他人”的意图。从理论上讲,MWM 源于心理表征理论,该理论认为认知体通过内部表征来模拟外部世界;而社会智能的本质,则在于“表征他人的表征”这一能力。 需要特别说明的是 MWM 与心理模型(Mental Model)的区别。心理模型是一个认知心理学概念 [8],指人类大脑对外部现实的混合表征(整合了物理感知与心理推断)。我们脑海中对周围世界的印象仅仅是一个模型——没有人能在脑中具象化整个世界、政府或国家;相反,人们会选择特定的概念及其关系,并利用它们来代表实际系统 [9, 10]。例如,“直觉物理引擎”是人类用来模拟物理世界时间演化的典型心理模型 [11]。相比之下,MWM 是为具身智能体设计的工程化模型,专门用于为“人类心理状态”建模,而非心理模型的简单延伸。两者的联系在于:MWM 借鉴了人类心理模型中“心理推断”的核心逻辑,但通过结构化设计(如符号化信念和概率分布)实现了机器的可计算性。这些概念之间的关系如图 1(a) 所示。然而,现有的世界模型研究存在显著局限:要么侧重于外部物理世界的隐式表征(如 JEPA [12], V-JEPA [13], V-JEPA2 [14]),要么依赖生成模型预测物理世界的未来状态(如 CityGPT [15], Genie [16], DreamGen [17]),均未涉及“心理定律”的建模与演绎。 尽管 MWM 的概念已得到阐明,但目前的研究仍面临三个核心缺口:首先是理论框架碎片化——现有研究多以零散方式讨论心理元素(如仅关注信念),缺乏对“信念-情感-目标”耦合关系的系统建模,未能建立整合物理与心理世界模型的统一数学框架。其次是推理范式缺乏对比——心理理论(Theory of Mind, ToM)推理的两大范式(提示词范式与基于模型的范式)各有优劣,但现有工作尚未系统分析其技术特点、适用场景或融合路径。第三是评估基准与具身需求脱节——早期基准(如 ToMi)局限于静态文本,而多模态基准(如 MuMA-ToM [18])虽取得一定突破,但存在数据真实性不足、缺乏在线交互评估等问题,难以反映具身智能体在交互中进行推理的实际需求。此外,现有的综述 [19, 20] 多侧重于评估大语言模型(LLMs)的 ToM 能力,未能从具身智能体的认知视角整合“表征-推理-基准”三个核心维度。 为填补上述空白,本文以 MWM 如何支撑具身智能体的社会智能为中心,进行了系统性综述。整体结构如图 1 所示: * 首先,梳理理论框架:通过综合 100 多项权威研究,明确了 MWM 的元素表征范式(强心理学表征与弱计算神经科学表征),并利用部分可观测马尔可夫决策过程(POMDP)[21, 22] 和预测编码理论(Predictive Coding Theory)[23] 论证了 MWM 与 PWM 的区别与统一。 * 其次,对比推理范式:深入分析了两大核心范式的典型方法、权衡(可解释性 vs. 效率)及神经符号融合趋势:即 ToM 提示词范式(激发 LLMs 的隐式能力)与基于模型的范式(显式构建符号模型)。 * 第三,追溯基准演进:遵循“静态文本 → 高阶文本 → 多模态动态”的逻辑,总结了 25 个基准的优势与局限,并指出了其对具身场景适配性不足的核心原因。

本论文与现有综述的关键区别在于,它立足于具身智能体的认知需求,实现了“理论-方法-基准”的全链条整合。主要贡献总结如下: * 构建统一理论框架:针对 MWM 理论碎片化问题,系统阐明了 MWM 与 PWM 的本质区别(状态空间包含心理属性,观测空间包含内省信号)与联系(PWM 为锚点,MWM 为扩展),并借由预测编码 [24, 23] 实现了两者的数学统一,填补了领域理论空白。 * 提供技术选型参考:遵循“静态文本 → 高阶文本 → 多模态动态交互”的演进逻辑,整理了 26 个 ToM 基准;通过对比 19 种典型方法,分析了提示词范式与基于模型范式的技术特征,并识别出“神经生成+符号验证”与“符号引导+神经微调”两条核心融合路径。 * 指明实用化方向:聚焦心理状态动态更新、多模态信息对齐及高阶推理鲁棒性等关键技术瓶颈,探讨了包括过度拟人化依赖、多模态信号隐私泄露及预训练数据偏见在内的伦理风险,并提出了多个具有操作性的未来方向。

本文余下章节结构安排如下:第 2 章从概念与数学内涵角度阐明 PWM 与 MWM 的区别与统一;第 3 章从理论层面考察 MWM 的元素表征范式(如符号信念与概率信念);第 4 章对比两大推理范式的典型方法与融合趋势;第 5 章追溯 ToM 评估基准的演进脉络并分析其适配性局限;第 6 章总结核心技术挑战并提出未来研究方向。

成为VIP会员查看完整内容
10

相关内容

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
大语言模型中的隐式推理:综合综述
专知会员服务
30+阅读 · 2025年9月4日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
53+阅读 · 2025年9月3日
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
42+阅读 · 2025年8月16日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习循环神经网络详解
七月在线实验室
16+阅读 · 2018年5月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关VIP内容
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
大语言模型中的隐式推理:综合综述
专知会员服务
30+阅读 · 2025年9月4日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
53+阅读 · 2025年9月3日
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
42+阅读 · 2025年8月16日
相关资讯
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习循环神经网络详解
七月在线实验室
16+阅读 · 2018年5月28日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员