LOGICAL-COMMONSENSEQA：一个用于逻辑常识推理的基准 (LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning) - 专知论文

会员服务 ·

0

常识推理 · 基准 · 原子 · 样本 · 自动问答 ·

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

翻译：LOGICAL-COMMONSENSEQA：一个用于逻辑常识推理的基准

Obed Junias,Maria Leonor Pacheco

Commonsense reasoning often involves evaluating multiple plausible interpretations rather than selecting a single atomic answer, yet most benchmarks rely on single-label evaluation, obscuring whether statements are jointly plausible, mutually exclusive, or jointly implausible. We introduce LOGICAL-COMMONSENSEQA, a benchmark that re-frames commonsense reasoning as logical composition over pairs of atomic statements using plausibility-level operators (AND, OR, NEITHER/NOR). Evaluating instruction-tuned, reasoning-specialized, and fine-tuned models under zero-shot, few-shot, and chain-of-thought prompting, we find that while models perform reasonably on conjunctive and moderately on disjunctive reasoning, performance degrades sharply on negation-based questions. LOGICAL-COMMONSENSEQA exposes fundamental reasoning limitations and provides a controlled framework for advancing compositional commonsense reasoning.

翻译：常识推理通常涉及评估多种合理的解释，而非选择单一的原子答案，然而大多数基准依赖于单标签评估，这模糊了陈述是共同合理、相互排斥还是共同不合理。我们引入了LOGICAL-COMMONSENSEQA，这是一个通过使用合理性级别运算符（AND、OR、NEITHER/NOR）对原子陈述对进行逻辑组合来重新构建常识推理的基准。在零样本、少样本和思维链提示下评估指令调优、推理专用和微调模型，我们发现，尽管模型在合取推理上表现尚可，在析取推理上表现中等，但在基于否定的问题上性能急剧下降。LOGICAL-COMMONSENSEQA揭示了根本的推理局限性，并为推进组合式常识推理提供了一个受控框架。

0

相关内容

常识推理

基于符号和参数化知识库的推理：综述

基于符号和参数化知识库的推理：综述

专知会员服务

33+阅读 · 2025年1月4日

【ICML2022】常识因果关系的因果推理原则

【ICML2022】常识因果关系的因果推理原则

专知会员服务

32+阅读 · 2022年7月26日

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

专知会员服务

26+阅读 · 2022年7月21日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

常识知识的获取与推理，171页ppt

常识知识的获取与推理，171页ppt

专知会员服务

63+阅读 · 2021年11月9日

【USC2021】常识推理，47页ppt，Commonsense Reasoning in the Wild

专知会员服务

33+阅读 · 2021年10月9日

因果推断，Causal Inference：The Mixtape

因果推断，Causal Inference：The Mixtape

专知会员服务

110+阅读 · 2021年8月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

专知

26+阅读 · 2022年2月2日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

近900000条if-then关系图谱，让神经网络“懂”常识推理

近900000条if-then关系图谱，让神经网络“懂”常识推理

AI100

13+阅读 · 2019年2月6日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

Arxiv

0+阅读 · 1月27日

FOL-Traces: Verified First-Order Logic Reasoning Traces at Scale

Arxiv

0+阅读 · 1月25日

MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

Arxiv

0+阅读 · 1月24日

LogicScore: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月22日

\textsc{LogicScore}: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月21日

OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand

Arxiv

0+阅读 · 1月19日

TEMPO: A Realistic Multi-Domain Benchmark for Temporal Reasoning-Intensive Retrieval

Arxiv

0+阅读 · 1月14日

ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

Arxiv

0+阅读 · 1月9日

RECOR: Reasoning-focused Multi-turn Conversational Retrieval Benchmark

Arxiv

0+阅读 · 1月9日

Simulated Reasoning is Reasoning

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

最新内容

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

2+阅读 · 今天15:00

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

1+阅读 · 今天14:55

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

1+阅读 · 今天13:45

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

2+阅读 · 今天13:33

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

2+阅读 · 今天13:25

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

2+阅读 · 今天13:18

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

2+阅读 · 今天13:08

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

2+阅读 · 今天12:58

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

0+阅读 · 今天12:57

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

0+阅读 · 今天12:53

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

0+阅读 · 今天12:50

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

8+阅读 · 今天6:31

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

7+阅读 · 今天6:28

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

1+阅读 · 今天6:23

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

4+阅读 · 今天6:19

相关VIP内容

基于符号和参数化知识库的推理：综述

基于符号和参数化知识库的推理：综述

专知会员服务

33+阅读 · 2025年1月4日

【ICML2022】常识因果关系的因果推理原则

【ICML2022】常识因果关系的因果推理原则

专知会员服务

32+阅读 · 2022年7月26日

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

【ICML2022】ROCK: 关于常识因果关系的因果推理原则

专知会员服务

26+阅读 · 2022年7月21日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

常识知识的获取与推理，171页ppt

常识知识的获取与推理，171页ppt

专知会员服务

63+阅读 · 2021年11月9日

【USC2021】常识推理，47页ppt，Commonsense Reasoning in the Wild

专知会员服务

33+阅读 · 2021年10月9日

因果推断，Causal Inference：The Mixtape

因果推断，Causal Inference：The Mixtape

专知会员服务

110+阅读 · 2021年8月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

专知

26+阅读 · 2022年2月2日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

近900000条if-then关系图谱，让神经网络“懂”常识推理

近900000条if-then关系图谱，让神经网络“懂”常识推理

AI100

13+阅读 · 2019年2月6日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

Arxiv

0+阅读 · 1月27日

FOL-Traces: Verified First-Order Logic Reasoning Traces at Scale

Arxiv

0+阅读 · 1月25日

MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

Arxiv

0+阅读 · 1月24日

LogicScore: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月22日

\textsc{LogicScore}: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering

Arxiv

0+阅读 · 1月21日

OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand

Arxiv

0+阅读 · 1月19日

TEMPO: A Realistic Multi-Domain Benchmark for Temporal Reasoning-Intensive Retrieval

Arxiv

0+阅读 · 1月14日

ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

Arxiv

0+阅读 · 1月9日

RECOR: Reasoning-focused Multi-turn Conversational Retrieval Benchmark

Arxiv

0+阅读 · 1月9日

Simulated Reasoning is Reasoning

Arxiv

0+阅读 · 1月5日

相关基金

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员