Commonsense reasoning often involves evaluating multiple plausible interpretations rather than selecting a single atomic answer, yet most benchmarks rely on single-label evaluation, obscuring whether statements are jointly plausible, mutually exclusive, or jointly implausible. We introduce LOGICAL-COMMONSENSEQA, a benchmark that re-frames commonsense reasoning as logical composition over pairs of atomic statements using plausibility-level operators (AND, OR, NEITHER/NOR). Evaluating instruction-tuned, reasoning-specialized, and fine-tuned models under zero-shot, few-shot, and chain-of-thought prompting, we find that while models perform reasonably on conjunctive and moderately on disjunctive reasoning, performance degrades sharply on negation-based questions. LOGICAL-COMMONSENSEQA exposes fundamental reasoning limitations and provides a controlled framework for advancing compositional commonsense reasoning.


翻译:常识推理通常涉及评估多种合理的解释,而非选择单一的原子答案,然而大多数基准依赖于单标签评估,这模糊了陈述是共同合理、相互排斥还是共同不合理。我们引入了LOGICAL-COMMONSENSEQA,这是一个通过使用合理性级别运算符(AND、OR、NEITHER/NOR)对原子陈述对进行逻辑组合来重新构建常识推理的基准。在零样本、少样本和思维链提示下评估指令调优、推理专用和微调模型,我们发现,尽管模型在合取推理上表现尚可,在析取推理上表现中等,但在基于否定的问题上性能急剧下降。LOGICAL-COMMONSENSEQA揭示了根本的推理局限性,并为推进组合式常识推理提供了一个受控框架。

0
下载
关闭预览

相关内容

基于符号和参数化知识库的推理:综述
专知会员服务
33+阅读 · 2025年1月4日
【ICML2022】常识因果关系的因果推理原则
专知会员服务
32+阅读 · 2022年7月26日
【ICML2022】ROCK: 关于常识因果关系的因果推理原则
专知会员服务
26+阅读 · 2022年7月21日
常识知识的获取与推理,171页ppt
专知会员服务
63+阅读 · 2021年11月9日
专知会员服务
33+阅读 · 2021年10月9日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月5日
VIP会员
相关VIP内容
基于符号和参数化知识库的推理:综述
专知会员服务
33+阅读 · 2025年1月4日
【ICML2022】常识因果关系的因果推理原则
专知会员服务
32+阅读 · 2022年7月26日
【ICML2022】ROCK: 关于常识因果关系的因果推理原则
专知会员服务
26+阅读 · 2022年7月21日
常识知识的获取与推理,171页ppt
专知会员服务
63+阅读 · 2021年11月9日
专知会员服务
33+阅读 · 2021年10月9日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员