Existing dynamic Theory of Mind (ToM) benchmarks mostly place language models in a passive role: the model reads a sequence of connected scenarios and reports what people believe, feel, intend, and do as these states change. In real social interaction, ToM is also used for action: a speaker plans what to say in order to shift another person's mental-state trajectory toward a goal. We introduce SocialMindChange, a benchmark that moves from tracking minds to changing minds in social interaction. Each instance defines a social context with 4 characters and five connected scenes. The model plays one character and generates dialogue across the five scenes to reach the target while remaining consistent with the evolving states of all participants. SocialMindChange also includes selected higher-order states. Using a structured four-step framework, we construct 1,200 social contexts, covering 6000 scenarios and over 90,000 questions, each validated for realism and quality. Evaluations on ten state-of-the-art LLMs show that their average performance is 54.2% below human performance. This gap suggests that current LLMs still struggle to maintain and change mental-state representations across long, linked interactions.


翻译:现有的动态心理理论基准大多将语言模型置于被动角色:模型读取一系列关联情境,并报告人们随着状态变化而产生的信念、感受、意图和行为。在实际社会互动中,心理理论同样被用于行动:说话者通过规划话语内容,以引导他人心理状态轨迹向目标方向转变。本文提出SocialMindChange基准,该基准将研究重点从心理状态追踪转向社会互动中的心理状态改变。每个实例定义包含4个角色和五个关联场景的社会情境。模型扮演其中一个角色,通过五个场景的对话生成来实现目标,同时保持与所有参与者动态演变状态的一致性。SocialMindChange还包含精选的高阶心理状态表征。通过结构化四步构建框架,我们创建了1,200个社会情境,涵盖6000个场景和超过90,000个问题,每个实例均通过真实性与质量验证。对十个前沿大语言模型的评估显示,其平均性能较人类表现低54.2%。这一差距表明当前大语言模型在长程关联互动中维持和改变心理状态表征方面仍面临显著挑战。

0
下载
关闭预览

相关内容

多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
25+阅读 · 2024年6月13日
社交知识图谱研究综述
专知会员服务
97+阅读 · 2023年2月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
数据驱动的态势认知技术及发展思考
专知
18+阅读 · 2022年7月12日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
数据驱动的态势认知技术及发展思考
专知
18+阅读 · 2022年7月12日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员