GroupToM-Bench: Benchmarking Group Theory of Mind and Nonlinear Social Emergence in MLLMs - 专知论文

会员服务 ·

0

多模 · 模态 · 心智理论 · 基准 · 基准测试 ·

GroupToM-Bench: Benchmarking Group Theory of Mind and Nonlinear Social Emergence in MLLMs

翻译：GroupToM-Bench：多模态大语言模型中群体心智理论与非线性社会涌现的基准测试

Weidong Tang,Jierui Li,Yueling Hou,Zihan Mei,Can Zhang,Xinyan Wan,Zhiyuan Liang,Pengfei Zhou,Yang You,Wangbo Zhao

from arxiv, ACL 2026 (Main Conference)

True general intelligence requires not only a model of the physical world but also a social world model: the capacity to infer how individual mental states interact and crystallize into group-level outcomes. Despite notable progress in individual-level Theory of Mind (ToM) reasoning, existing multimodal large language models fail at this broader task. Collective behavior emerges non-linearly from social tensions, conformity dynamics, and structural constraints, meaning it cannot be recovered by merely summing individual intentions. We present GroupToM-Bench, the first multimodal benchmark for group-level ToM, built around a causal chain spanning micro-level BDI states (belief, desire, intention), meso-level group tension and structural constraints, and macro-level outcome prediction and mechanistic attribution. To probe this full arc, we develop a seven-level cognitive audit framework. Experiments reveal a gap between current models and human baselines, highlighting a failure to process social structures and non-linear collective dynamics.

翻译：真正通用智能不仅需要物理世界模型，还需要社会世界模型：即推断个体心理状态如何相互作用并凝聚成群体层面结果的能力。尽管个体层面心智理论推理取得了显著进展，但现有的大规模多模态语言模型在这一更广泛的任务中仍表现不佳。集体行为从社会张力、从众动态和结构约束中非线性涌现，这意味着它无法通过简单加总个体意图来恢复。我们提出GroupToM-Bench——首个面向群体层面心智理论的多模态基准测试，其构建基于覆盖微观层面BDI状态（信念、欲望、意图）、中观层面群体张力与结构约束，以及宏观层面结果预测与机制归因的因果链条。为探究这一完整脉络，我们开发了一套七级认知审计框架。实验揭示了当前模型与人类基线之间的差距，凸显了模型在处理社会结构与非线性集体动态方面的失效。

0

相关内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

大模型驱动的社交网络多智能体仿真综述

大模型驱动的社交网络多智能体仿真综述

专知会员服务

18+阅读 · 2月22日

基于大语言模型智能体的社会认知模拟

基于大语言模型智能体的社会认知模拟

专知会员服务

19+阅读 · 2月22日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

智能体化多模态大语言模型综述

智能体化多模态大语言模型综述

专知会员服务

39+阅读 · 2025年10月14日

《多智能体学习中的神经多样性研究》最新200页

《多智能体学习中的神经多样性研究》最新200页

专知会员服务

28+阅读 · 2025年9月12日

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

专知会员服务

10+阅读 · 2025年5月27日

感知、推理、思考与规划：大型多模态推理模型综述

感知、推理、思考与规划：大型多模态推理模型综述

专知会员服务

40+阅读 · 2025年5月10日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知

20+阅读 · 2022年2月9日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

合作竞争网络中异质个体的群集行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI

Arxiv

0+阅读 · 6月16日

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

AdaSTORM: Scaling LLM Reasoning on Dynamic Graphs via Adaptive Spatio-Temporal Multi-Agent Collaboration

Arxiv

0+阅读 · 6月15日

P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

Arxiv

0+阅读 · 6月10日

Topology-Aware LLM-Driven Social Simulation: A Unified Framework for Efficient and Realistic Agent Dynamics

Arxiv

0+阅读 · 6月8日

CollabBench: Benchmarking and Unleashing Collaborative Ability of LLMs with Diverse Players via Proactive Engagement

Arxiv

0+阅读 · 6月4日

MindZero: Learning Online Mental Reasoning With Zero Annotations

Arxiv

0+阅读 · 5月29日

Understanding Social-Force Model in Psychological Principles of Collective Behavior

Arxiv

0+阅读 · 5月28日

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Arxiv

0+阅读 · 5月18日

EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents

Arxiv

0+阅读 · 5月15日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

大模型驱动的社交网络多智能体仿真综述

大模型驱动的社交网络多智能体仿真综述

专知会员服务

18+阅读 · 2月22日

基于大语言模型智能体的社会认知模拟

基于大语言模型智能体的社会认知模拟

专知会员服务

19+阅读 · 2月22日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

智能体化多模态大语言模型综述

智能体化多模态大语言模型综述

专知会员服务

39+阅读 · 2025年10月14日

《多智能体学习中的神经多样性研究》最新200页

《多智能体学习中的神经多样性研究》最新200页

专知会员服务

28+阅读 · 2025年9月12日

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

专知会员服务

10+阅读 · 2025年5月27日

感知、推理、思考与规划：大型多模态推理模型综述

感知、推理、思考与规划：大型多模态推理模型综述

专知会员服务

40+阅读 · 2025年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知

20+阅读 · 2022年2月9日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI

Arxiv

0+阅读 · 6月16日

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

AdaSTORM: Scaling LLM Reasoning on Dynamic Graphs via Adaptive Spatio-Temporal Multi-Agent Collaboration

Arxiv

0+阅读 · 6月15日

P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

Arxiv

0+阅读 · 6月10日

Topology-Aware LLM-Driven Social Simulation: A Unified Framework for Efficient and Realistic Agent Dynamics

Arxiv

0+阅读 · 6月8日

CollabBench: Benchmarking and Unleashing Collaborative Ability of LLMs with Diverse Players via Proactive Engagement

Arxiv

0+阅读 · 6月4日

MindZero: Learning Online Mental Reasoning With Zero Annotations

Arxiv

0+阅读 · 5月29日

Understanding Social-Force Model in Psychological Principles of Collective Behavior

Arxiv

0+阅读 · 5月28日

Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks

Arxiv

0+阅读 · 5月18日

EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents

Arxiv

0+阅读 · 5月15日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

合作竞争网络中异质个体的群集行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员