LOGICAL-COMMONSENSEQA：一个用于逻辑常识推理的基准测试 (LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning) - 专知论文

会员服务 ·

0

常识推理 · 基准 · 基准测试 · 原子 · 样本 ·

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

翻译：LOGICAL-COMMONSENSEQA：一个用于逻辑常识推理的基准测试

Obed Junias,Maria Leonor Pacheco

Commonsense reasoning often involves evaluating multiple plausible interpretations rather than selecting a single atomic answer, yet most benchmarks rely on single-label evaluation, obscuring whether statements are jointly plausible, mutually exclusive, or jointly implausible. We introduce LOGICAL-COMMONSENSEQA, a benchmark that re-frames commonsense reasoning as logical composition over pairs of atomic statements using plausibility-level operators (AND, OR, NEITHER/NOR). Evaluating instruction-tuned, reasoning-specialized, and fine-tuned models under zero-shot, few-shot, and chain-of-thought prompting, we find that while models perform reasonably on conjunctive and moderately on disjunctive reasoning, performance degrades sharply on negation-based questions. LOGICAL-COMMONSENSEQA exposes fundamental reasoning limitations and provides a controlled framework for advancing compositional commonsense reasoning.

翻译：常识推理通常涉及评估多种可能的解释，而非选择一个单一的原子答案，然而大多数基准测试依赖于单标签评估，这模糊了陈述是共同合理、相互排斥还是共同不合理。我们提出了LOGICAL-COMMONSENSEQA，这是一个将常识推理重新定义为使用合理性级别运算符（AND、OR、NEITHER/NOR）对原子陈述对进行逻辑组合的基准测试。通过零样本、少样本和思维链提示，对指令调优、推理专用和微调模型进行评估，我们发现，虽然模型在合取推理上表现尚可，在析取推理上表现中等，但在基于否定的问题上性能急剧下降。LOGICAL-COMMONSENSEQA揭示了根本的推理局限性，并为推进组合式常识推理提供了一个受控框架。

0

相关内容

常识推理

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

基于符号和参数化知识库的推理：综述

基于符号和参数化知识库的推理：综述

专知会员服务

33+阅读 · 2025年1月4日

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

专知会员服务

26+阅读 · 2022年7月21日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

常识知识的获取与推理，171页ppt

常识知识的获取与推理，171页ppt

专知会员服务

63+阅读 · 2021年11月9日

【USC2021】常识推理，47页ppt，Commonsense Reasoning in the Wild

专知会员服务

33+阅读 · 2021年10月9日

因果推断，Causal Inference：The Mixtape

因果推断，Causal Inference：The Mixtape

专知会员服务

110+阅读 · 2021年8月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

近900000条if-then关系图谱，让神经网络“懂”常识推理

近900000条if-then关系图谱，让神经网络“懂”常识推理

AI100

13+阅读 · 2019年2月6日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

FOL-Traces: Verified First-Order Logic Reasoning Traces at Scale

Arxiv

0+阅读 · 1月25日

MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

Arxiv

0+阅读 · 1月24日

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

Arxiv

0+阅读 · 1月23日

LogicScore: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月22日

\textsc{LogicScore}: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月21日

OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand

Arxiv

0+阅读 · 1月19日

ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

Arxiv

0+阅读 · 1月9日

RECOR: Reasoning-focused Multi-turn Conversational Retrieval Benchmark

Arxiv

0+阅读 · 1月9日

Simulated Reasoning is Reasoning

Arxiv

0+阅读 · 1月5日

ChaosBench-Logic: A Benchmark for Logical and Symbolic Reasoning on Chaotic Dynamical Systems

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

相关VIP内容

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

基于符号和参数化知识库的推理：综述

基于符号和参数化知识库的推理：综述

专知会员服务

33+阅读 · 2025年1月4日

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

专知会员服务

26+阅读 · 2022年7月21日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

常识知识的获取与推理，171页ppt

常识知识的获取与推理，171页ppt

专知会员服务

63+阅读 · 2021年11月9日

【USC2021】常识推理，47页ppt，Commonsense Reasoning in the Wild

专知会员服务

33+阅读 · 2021年10月9日

因果推断，Causal Inference：The Mixtape

因果推断，Causal Inference：The Mixtape

专知会员服务

110+阅读 · 2021年8月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

近900000条if-then关系图谱，让神经网络“懂”常识推理

近900000条if-then关系图谱，让神经网络“懂”常识推理

AI100

13+阅读 · 2019年2月6日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

FOL-Traces: Verified First-Order Logic Reasoning Traces at Scale

Arxiv

0+阅读 · 1月25日

MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

Arxiv

0+阅读 · 1月24日

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

Arxiv

0+阅读 · 1月23日

LogicScore: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月22日

\textsc{LogicScore}: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月21日

OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand

Arxiv

0+阅读 · 1月19日

ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

Arxiv

0+阅读 · 1月9日

RECOR: Reasoning-focused Multi-turn Conversational Retrieval Benchmark

Arxiv

0+阅读 · 1月9日

Simulated Reasoning is Reasoning

Arxiv

0+阅读 · 1月5日

ChaosBench-Logic: A Benchmark for Logical and Symbolic Reasoning on Chaotic Dynamical Systems

Arxiv

0+阅读 · 1月5日

相关基金

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员