现代语言模型(LMs)展现出了强大的演绎推理(deductive reasoning)能力,然而标准化评估往往只关注推理结果的正确性,而忽视了类人推理中的一个关键方面——效率。 在真实世界的推理场景中,绝大部分可用信息都是无关的,而高效的演绎推理需要能够识别并忽略这些干扰信息。 我们提出了一个基于逻辑编程(logic programming)视角的框架,用于评估语言模型的推理效率。该框架引入了一种简洁的方法,用于将语言模型生成的自然语言证明(natural language proofs)与通过执行逻辑程序所得的最短证明(shortest proofs)进行对齐。模型的效率通过衡量其在推理过程中避免不必要推理步骤的能力来量化。 在实证研究中,我们构建了一个数学文字题(math word problems)数据集,并在其中注入不同数量、不同语义重叠程度的无关公理(irrelevant axioms)。结果表明,当前的语言模型在此类条件下的推理准确率显著下降——即使这些干扰最小且与领域语义一致——并且其生成的证明中经常出现绕行于无关推理的冗余步骤

成为VIP会员查看完整内容
17

相关内容

【CMU博士论文】面向目标的自主智能体推理
专知会员服务
26+阅读 · 2025年9月11日
【ICML2025】通过多智能体反思强化大语言模型推理
专知会员服务
23+阅读 · 2025年6月11日
【ACL2023教程】自然语言的复杂推理,240多页ppt
专知会员服务
56+阅读 · 2023年7月13日
【COLING2022教程】自然语言处理的不确定性估计教程
专知会员服务
31+阅读 · 2022年10月17日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
500+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
Arxiv
20+阅读 · 2018年10月25日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 45分钟前
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
1+阅读 · 51分钟前
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关VIP内容
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员