While Small Language Models (SLMs) have demonstrated promising performance on an increasingly wide array of commonsense reasoning benchmarks, current evaluation practices rely almost exclusively on the accuracy of their final answers, neglecting the validity of the reasoning processes that lead to those answers. To address this issue, we present ReTraceQA, a novel benchmark that introduces process-level evaluation for commonsense reasoning tasks. Our expert-annotated dataset reveals that in a substantial portion of instances (14-24%), SLMs provide correct final answers despite flawed reasoning processes, suggesting that the capabilities of SLMs are often overestimated by evaluation metrics that focus only on comparing the final answer with the ground truth. Indeed, we show that, when employing strong Large Language Models (LLMs) as automated judges for reasoning-aware evaluation rather than answer-only metrics, SLM performance drops significantly across all models and datasets, with scores decreasing by up to 25%.


翻译:尽管小语言模型(SLMs)在日益广泛的常识推理基准测试中展现出有前景的性能,但当前的评估实践几乎完全依赖于其最终答案的准确性,而忽视了得出这些答案的推理过程的有效性。为解决这一问题,我们提出了ReTraceQA这一新型基准,它引入了针对常识推理任务的过程级评估。我们经专家注释的数据集显示,在相当比例(14-24%)的实例中,SLMs尽管推理过程存在缺陷,却给出了正确的最终答案,这表明仅通过比较最终答案与真实值来评估的指标常常高估了SLMs的能力。事实上,我们证明,当使用强大大语言模型(LLMs)作为自动评判器进行面向推理的评估(而非仅关注答案的指标)时,所有模型和数据集的SLM性能均显著下降,得分降幅高达25%。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大语言模型中的隐式推理:综合综述
专知会员服务
33+阅读 · 2025年9月4日
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
Phi-4:微软最新的小型语言模型,专注于复杂推理
专知会员服务
25+阅读 · 2024年12月14日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
10+阅读 · 2023年5月4日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大语言模型中的隐式推理:综合综述
专知会员服务
33+阅读 · 2025年9月4日
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
Phi-4:微软最新的小型语言模型,专注于复杂推理
专知会员服务
25+阅读 · 2024年12月14日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员