ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models - 专知论文

会员服务 ·

1

常识知识 · 知识 · ChatGPT · 大型语言模型 · 语言模型 ·

2023 年 3 月 29 日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

翻译：ChatGPT是知识渊博但缺乏经验的求解者：大型语言模型中常识问题的研究

Ning Bian,Xianpei Han,Le Sun,Hongyu Lin,Yaojie Lu,Ben He

Large language models (LLMs) such as ChatGPT and GPT-4 have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point for LLMs. It remains unclear that: (1) Can GPTs effectively answer commonsense questions? (2) Are GPTs knowledgeable in commonsense? (3) Are GPTs aware of the underlying commonsense knowledge for answering a specific question? (4) Can GPTs effectively leverage commonsense for answering questions? To evaluate the above commonsense problems, we conduct a series of experiments to evaluate ChatGPT's commonsense abilities, and the experimental results show that: (1) GPTs can achieve good QA accuracy in commonsense tasks, while they still struggle with certain types of knowledge. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense knowledge for answering a specific question, i.e., ChatGPT does not precisely know what commonsense knowledge is required to answer a question. The above findings raise the need to investigate better mechanisms for utilizing commonsense knowledge in LLMs, such as instruction following, better commonsense guidance, etc.

翻译：像ChatGPT和GPT-4这样的大型语言模型（LLMs）在自然语言处理领域取得了显著进展。然而，它们在记忆、表征和利用常识知识方面的能力一直是LLMs公认的痛点。目前尚不明确：(1) GPT能否有效回答常识问题？(2) GPT是否具备常识知识？(3) GPT是否知晓回答特定问题所需的潜在常识知识？(4) GPT能否有效利用常识来回答问题？为评估上述常识问题，我们开展了一系列实验来评估ChatGPT的常识能力，实验结果表明：(1) GPT在常识任务中能实现较高的问答准确率，但在某些知识类型上仍存在困难。(2) ChatGPT知识渊博，能利用知识提示准确生成大部分常识知识。(3) 尽管知识储备丰富，ChatGPT却是一个缺乏经验的常识问题求解器，无法精确识别回答特定问题所需的常识知识，即它并不确切知道回答一个问题需要何种常识知识。上述发现表明，需要探究在LLMs中更好利用常识知识的机制，例如指令遵循、更优的常识指导等。

64

相关内容

常识知识

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文，

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文，

专知会员服务

81+阅读 · 2023年4月5日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知会员服务

62+阅读 · 2022年11月18日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

97+阅读 · 2021年10月19日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

专知会员服务

26+阅读 · 2020年5月6日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

专知

5+阅读 · 2023年4月5日

EMNLP 2022 | 校准预训练模型中的事实知识

EMNLP 2022 | 校准预训练模型中的事实知识

PaperWeekly

1+阅读 · 2022年11月22日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

PaperWeekly

3+阅读 · 2022年9月21日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

论文小综 | Using External Knowledge on VQA

论文小综 | Using External Knowledge on VQA

开放知识图谱

10+阅读 · 2020年10月18日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

功能化多级孔沸石Beta纳米催化剂的设计合成及其碳烟颗粒催化氧化性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

过表达IDO大鼠骨髓间充质干细胞分泌Exosome在心脏移植存活中的作用及机制

国家自然科学基金

0+阅读 · 2014年12月31日

GPS和GRACE联合获取藏南垂直形变的关键问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

二向性反射分布函数的先验知识耦合式融合方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

氮杂卡宾金配合物催化不饱和烃的选择性氧化反应研究

国家自然科学基金

0+阅读 · 2012年12月31日

具有微孔、介孔和大孔的多级孔MOF材料的设计合成与应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

函数域中的Vinogradov中值定理

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

Arxiv

0+阅读 · 2023年5月19日

Diving into the Inter-Consistency of Large Language Models: An Insightful Analysis through Debate

Arxiv

0+阅读 · 2023年5月19日

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations

Arxiv

0+阅读 · 2023年5月19日

SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation

Arxiv

0+阅读 · 2023年5月18日

Generalized Planning in PDDL Domains with Pretrained Large Language Models

Arxiv

0+阅读 · 2023年5月18日

Can Language Models Solve Graph Problems in Natural Language?

Arxiv

0+阅读 · 2023年5月17日

An efficient solver for ASP(Q)

Arxiv

0+阅读 · 2023年5月17日

Leveraging Large Language Models in Conversational Recommender Systems

Arxiv

0+阅读 · 2023年5月16日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

CSKG: The CommonSense Knowledge Graph

CSKG: The CommonSense Knowledge Graph

Arxiv

18+阅读 · 2020年12月21日

VIP会员

文章信息

相关主题

大型语言模型

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

10+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

5+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

11+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

9+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

5+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

11+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

15+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

8+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

11+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

11+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

13+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

13+阅读 · 7月14日

相关VIP内容

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文，

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文，

专知会员服务

81+阅读 · 2023年4月5日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知会员服务

62+阅读 · 2022年11月18日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

97+阅读 · 2021年10月19日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

专知会员服务

26+阅读 · 2020年5月6日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

专知

5+阅读 · 2023年4月5日

EMNLP 2022 | 校准预训练模型中的事实知识

EMNLP 2022 | 校准预训练模型中的事实知识

PaperWeekly

1+阅读 · 2022年11月22日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

PaperWeekly

3+阅读 · 2022年9月21日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

论文小综 | Using External Knowledge on VQA

论文小综 | Using External Knowledge on VQA

开放知识图谱

10+阅读 · 2020年10月18日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

相关论文

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

Arxiv

0+阅读 · 2023年5月19日

Diving into the Inter-Consistency of Large Language Models: An Insightful Analysis through Debate

Arxiv

0+阅读 · 2023年5月19日

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations

Arxiv

0+阅读 · 2023年5月19日

SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation

Arxiv

0+阅读 · 2023年5月18日

Generalized Planning in PDDL Domains with Pretrained Large Language Models

Arxiv

0+阅读 · 2023年5月18日

Can Language Models Solve Graph Problems in Natural Language?

Arxiv

0+阅读 · 2023年5月17日

An efficient solver for ASP(Q)

Arxiv

0+阅读 · 2023年5月17日

Leveraging Large Language Models in Conversational Recommender Systems

Arxiv

0+阅读 · 2023年5月16日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

CSKG: The CommonSense Knowledge Graph

CSKG: The CommonSense Knowledge Graph

Arxiv

18+阅读 · 2020年12月21日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

功能化多级孔沸石Beta纳米催化剂的设计合成及其碳烟颗粒催化氧化性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

过表达IDO大鼠骨髓间充质干细胞分泌Exosome在心脏移植存活中的作用及机制

国家自然科学基金

0+阅读 · 2014年12月31日

GPS和GRACE联合获取藏南垂直形变的关键问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

二向性反射分布函数的先验知识耦合式融合方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

氮杂卡宾金配合物催化不饱和烃的选择性氧化反应研究

国家自然科学基金

0+阅读 · 2012年12月31日

具有微孔、介孔和大孔的多级孔MOF材料的设计合成与应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

函数域中的Vinogradov中值定理

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员