True general intelligence requires not only a model of the physical world but also a social world model: the capacity to infer how individual mental states interact and crystallize into group-level outcomes. Despite notable progress in individual-level Theory of Mind (ToM) reasoning, existing multimodal large language models fail at this broader task. Collective behavior emerges non-linearly from social tensions, conformity dynamics, and structural constraints, meaning it cannot be recovered by merely summing individual intentions. We present GroupToM-Bench, the first multimodal benchmark for group-level ToM, built around a causal chain spanning micro-level BDI states (belief, desire, intention), meso-level group tension and structural constraints, and macro-level outcome prediction and mechanistic attribution. To probe this full arc, we develop a seven-level cognitive audit framework. Experiments reveal a gap between current models and human baselines, highlighting a failure to process social structures and non-linear collective dynamics.


翻译:真正通用智能不仅需要物理世界模型,还需要社会世界模型:即推断个体心理状态如何相互作用并凝聚成群体层面结果的能力。尽管个体层面心智理论推理取得了显著进展,但现有的大规模多模态语言模型在这一更广泛的任务中仍表现不佳。集体行为从社会张力、从众动态和结构约束中非线性涌现,这意味着它无法通过简单加总个体意图来恢复。我们提出GroupToM-Bench——首个面向群体层面心智理论的多模态基准测试,其构建基于覆盖微观层面BDI状态(信念、欲望、意图)、中观层面群体张力与结构约束,以及宏观层面结果预测与机制归因的因果链条。为探究这一完整脉络,我们开发了一套七级认知审计框架。实验揭示了当前模型与人类基线之间的差距,凸显了模型在处理社会结构与非线性集体动态方面的失效。

0
下载
关闭预览

相关内容

大模型驱动的社交网络多智能体仿真综述
专知会员服务
18+阅读 · 2月22日
基于大语言模型智能体的社会认知模拟
专知会员服务
19+阅读 · 2月22日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
智能体化多模态大语言模型综述
专知会员服务
39+阅读 · 2025年10月14日
《多智能体学习中的神经多样性研究》最新200页
专知会员服务
28+阅读 · 2025年9月12日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
清华大学:从单体仿生到群体智能
专知
20+阅读 · 2022年2月9日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
大模型驱动的社交网络多智能体仿真综述
专知会员服务
18+阅读 · 2月22日
基于大语言模型智能体的社会认知模拟
专知会员服务
19+阅读 · 2月22日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
智能体化多模态大语言模型综述
专知会员服务
39+阅读 · 2025年10月14日
《多智能体学习中的神经多样性研究》最新200页
专知会员服务
28+阅读 · 2025年9月12日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员