Math reasoning benchmarks have proliferated, yet most lack a per-item difficulty signal grounded in actual human performance. We introduce KCSAT-ML, a decade (2014-2025) of Korean College Scholastic Ability Test (KCSAT; Suneung) mathematics: 664 problems with a 339-item core set carrying official per-item error rates from nationwide cohorts of hundreds of thousands of examinees. We pair the benchmark with Difficulty-aligned Reasoning Gain (DRG): a score-orthogonal metric that asks whether a model's mistakes concentrate on the items humans found hard, or on items humans found easy. Together they expose, across a wide range of VLMs (and LLMs via OCR), three patterns: (i) low-budget accuracy collapses on the high-human-error tail at every model size; (ii) test-time scaling (TTS) raises token use roughly linearly with cohort error rate, while accuracy gains follow a non-monotonic curve; (iii) within a single family, TTS flips between anti-scaling on the hardest items and overthinking on easier ones -- two faces of the same alignment failure. On DRG, models with near-identical accuracy can sit at near-opposite values: one model gets wrong what humans also find hard, while another solves the hardest items yet fails on items humans find easy -- a contrast that aggregate accuracy hides. Our code and dataset builder will be open-sourced at https://github.com/naver-ai/KCSAT-ML.


翻译:数学推理基准测试不断涌现,但大多数缺乏基于真实人类表现的逐项难度信号。我们提出KCSAT-ML,包含2014-2025十年间的韩国大学修学能力考试(KCSAT;Suneung)数学试题:664道题,其中339道核心试题附带来自数十万考生全国队列的官方逐项错误率。我们为该基准配套提出难度对齐推理增益(DRG):一种分数正交指标,用于评估模型的错误是集中在人类认为困难的题目上,还是集中在人类认为容易的题目上。两者结合,在多种视觉语言模型(及通过光学字符识别处理的纯语言模型)中揭示了三种模式:(i)在每种模型规模下,低预算精度在高人类错误率尾端崩溃;(ii)测试时扩展(TTS)使令牌使用量随队列错误率大致线性增加,而精度增益遵循非单调曲线;(iii)在同一模型家族内,TTS在最困难题目上的反缩放与较容易题目上的过度思考之间切换——这是同一对齐失败的两个方面。在DRG指标上,精度近乎相同的模型可能处于几乎相反的数值:一个模型在人类认为困难的题目上犯错,而另一个模型解决了最难的题目,却在人类认为容易的题目上失败——这种对比被聚合精度所掩盖。我们的代码和数据集构建工具将在 https://github.com/naver-ai/KCSAT-ML 开源。

0
下载
关闭预览

相关内容

OlymMATH: 奥林匹克级双语数学基准,R1 正确率仅为 21.2%
专知会员服务
11+阅读 · 2025年4月17日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
GPT-4在97轮对话中探索世界难题,给出P≠NP结论
专知会员服务
27+阅读 · 2023年9月15日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
资源 | Github项目:斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现
黑龙江大学自然语言处理实验室
10+阅读 · 2017年11月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员