Large language models (LLMs) such as ChatGPT and GPT-4 have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point for LLMs. It remains unclear that: (1) Can GPTs effectively answer commonsense questions? (2) Are GPTs knowledgeable in commonsense? (3) Are GPTs aware of the underlying commonsense knowledge for answering a specific question? (4) Can GPTs effectively leverage commonsense for answering questions? To evaluate the above commonsense problems, we conduct a series of experiments to evaluate ChatGPT's commonsense abilities, and the experimental results show that: (1) GPTs can achieve good QA accuracy in commonsense tasks, while they still struggle with certain types of knowledge. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense knowledge for answering a specific question, i.e., ChatGPT does not precisely know what commonsense knowledge is required to answer a question. The above findings raise the need to investigate better mechanisms for utilizing commonsense knowledge in LLMs, such as instruction following, better commonsense guidance, etc.


翻译:像ChatGPT和GPT-4这样的大型语言模型(LLMs)在自然语言处理领域取得了显著进展。然而,它们在记忆、表征和利用常识知识方面的能力一直是LLMs公认的痛点。目前尚不明确:(1) GPT能否有效回答常识问题?(2) GPT是否具备常识知识?(3) GPT是否知晓回答特定问题所需的潜在常识知识?(4) GPT能否有效利用常识来回答问题?为评估上述常识问题,我们开展了一系列实验来评估ChatGPT的常识能力,实验结果表明:(1) GPT在常识任务中能实现较高的问答准确率,但在某些知识类型上仍存在困难。(2) ChatGPT知识渊博,能利用知识提示准确生成大部分常识知识。(3) 尽管知识储备丰富,ChatGPT却是一个缺乏经验的常识问题求解器,无法精确识别回答特定问题所需的常识知识,即它并不确切知道回答一个问题需要何种常识知识。上述发现表明,需要探究在LLMs中更好利用常识知识的机制,例如指令遵循、更优的常识指导等。

64
下载
关闭预览

相关内容

「知识增强预训练语言模型」最新研究综述
专知会员服务
62+阅读 · 2022年11月18日
知识增强预训练语言模型:全面综述
专知会员服务
97+阅读 · 2021年10月19日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
EMNLP 2022 | 校准预训练模型中的事实知识
PaperWeekly
1+阅读 · 2022年11月22日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月17日
Arxiv
176+阅读 · 2023年4月20日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
0+阅读 · 今天15:44
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
2+阅读 · 今天15:43
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
19+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
2+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
15+阅读 · 5月25日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员