Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. With early access to the GPT-4 API we are able to conduct intense experiments on the GPT-4 model. The results show GPT-4 yields even higher performance on most logical reasoning datasets. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. We release the prompt-style logical reasoning datasets as a benchmark suite and name it LogiEval.


翻译:具备逻辑推理能力是一项综合性的自然语言理解任务。随着被标榜为“先进”推理能力的生成式预训练Transformer 4(GPT-4)的发布,我们迫切希望了解GPT-4在各种逻辑推理任务上的表现。本报告分析了多个逻辑推理数据集,包括LogiQA和ReClor等主流基准,以及AR-LSAT等新近发布的数据集。我们利用需要逻辑推理能力的基准测试,检验了多项选择阅读理解与自然语言推理任务。此外,我们构建了一个逻辑推理分布外数据集,以探究ChatGPT与GPT-4的鲁棒性。我们还对ChatGPT与GPT-4的性能进行了对比。实验结果表明,在大多数逻辑推理基准上,ChatGPT的表现显著优于基于RoBERTa的微调方法。借助对GPT-4 API的早期访问权限,我们对GPT-4模型进行了密集实验。结果显示,GPT-4在大多数逻辑推理数据集上取得了更高的性能。在基准测试中,ChatGPT与GPT-4在LogiQA和ReClor等知名数据集上表现相对良好。然而,在处理新发布及分布外数据集时,其性能显著下降。逻辑推理对ChatGPT与GPT-4而言仍具挑战性,尤其是在分布外和自然语言推理数据集上。我们将基于提示风格的逻辑推理数据集作为基准套件发布,并命名为LogiEval。

2
下载
关闭预览

相关内容

揭秘ChatGPT情感对话能力
专知会员服务
59+阅读 · 2023年4月9日
专知会员服务
33+阅读 · 2021年10月9日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
51+阅读 · 2020年8月25日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
赛尔笔记 | 逻辑推理阅读理解任务及方法
哈工大SCIR
1+阅读 · 2022年6月7日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
赛尔原创@ACL 2022 | e-CARE: 可解释的因果推理数据集
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Deductive Verification of Chain-of-Thought Reasoning
Arxiv
1+阅读 · 2023年6月2日
Arxiv
28+阅读 · 2021年10月1日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
3+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
5+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
6+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
6+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
7+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
17+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
14+阅读 · 6月4日
相关资讯
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
赛尔笔记 | 逻辑推理阅读理解任务及方法
哈工大SCIR
1+阅读 · 2022年6月7日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
赛尔原创@ACL 2022 | e-CARE: 可解释的因果推理数据集
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员