Social intelligence and Theory of Mind (ToM), i.e., the ability to reason about the different mental states, intents, and reactions of all people involved, allow humans to effectively navigate and understand everyday social interactions. As NLP systems are used in increasingly complex social situations, their ability to grasp social dynamics becomes crucial. In this work, we examine the open question of social intelligence and Theory of Mind in modern NLP systems from an empirical and theory-based perspective. We show that one of today's largest language models (GPT-3; Brown et al., 2020) lacks this kind of social intelligence out-of-the box, using two tasks: SocialIQa (Sap et al., 2019), which measures models' ability to understand intents and reactions of participants of social interactions, and ToMi (Le et al., 2019), which measures whether models can infer mental states and realities of participants of situations. Our results show that models struggle substantially at these Theory of Mind tasks, with well-below-human accuracies of 55% and 60% on SocialIQa and ToMi, respectively. To conclude, we draw on theories from pragmatics to contextualize this shortcoming of large language models, by examining the limitations stemming from their data, neural architecture, and training paradigms. Challenging the prevalent narrative that only scale is needed, we posit that person-centric NLP approaches might be more effective towards neural Theory of Mind. In our updated version, we also analyze newer instruction tuned and RLFH models for neural ToM. We find that even ChatGPT and GPT-4 do not display emergent Theory of Mind; strikingly even GPT-4 performs only 60% accuracy on the ToMi questions related to mental states and realities.


翻译:社会智能与心智理论(Theory of Mind, ToM),即推理所有参与者不同心理状态、意图和反应的能力,使人类能够有效理解并处理日常社交互动。随着自然语言处理系统被应用于日益复杂的社会情境,其把握社会动态的能力变得至关重要。本研究从实证与理论视角,探讨现代自然语言处理系统中社会智能与心智理论这一开放性问题。我们通过两项任务证明,当前最大的语言模型之一(GPT-3;Brown等,2020)在开箱状态下缺乏此类社会智能:SocialIQa(Sap等,2019)衡量模型理解社交互动参与者意图与反应的能力,ToMi(Le等,2019)则评估模型推断情境参与者心理状态与现实性的能力。结果显示,模型在这些心智理论任务上表现严重不足,在SocialIQa和ToMi上的准确率分别仅为55%和60%,远低于人类水平。最后,我们借鉴语用学理论,通过分析大型语言模型在数据、神经架构及训练范式层面的局限性,对其缺陷进行语境化解读。针对当前"仅需扩展规模"的主流观点,我们提出以人为中心的自然语言处理方法可能更有助于实现神经心智理论。在更新版本中,我们还分析了近年经过指令微调与基于人类反馈的强化学习(RLFH)训练的模型在神经心智理论上的表现,发现即便是ChatGPT和GPT-4也未展现出涌现型心智理论——值得注意的是,GPT-4在涉及心理状态与现实性的ToMi问题上准确率也仅为60%。

0
下载
关闭预览

相关内容

百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
63+阅读 · 2020年7月30日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
124+阅读 · 2020年3月30日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
多模态认知计算
专知
7+阅读 · 2022年9月16日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
情感计算综述
人工智能学家
34+阅读 · 2019年4月6日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
NLP专题论文解读:从Chatbot、NER到QA系统...
数据派THU
27+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
31+阅读 · 2022年2月15日
Arxiv
46+阅读 · 2021年10月4日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
最新内容
马赛克战:俄乌战场透析
专知会员服务
10+阅读 · 今天4:12
《利用人工智能增强军事决策》
专知会员服务
2+阅读 · 今天4:09
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
4+阅读 · 今天4:02
为何指挥所生存能力要求范式转变
专知会员服务
2+阅读 · 今天3:54
打造“新蛛网”模式与高科技动员
专知会员服务
2+阅读 · 今天3:33
“蛛网”行动一周年:远程无人机战争
专知会员服务
2+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
6+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
8+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
6+阅读 · 6月9日
相关资讯
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
多模态认知计算
专知
7+阅读 · 2022年9月16日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
情感计算综述
人工智能学家
34+阅读 · 2019年4月6日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
NLP专题论文解读:从Chatbot、NER到QA系统...
数据派THU
27+阅读 · 2017年11月12日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员