KCSAT-ML: Probing Reasoning Models with Nationwide-Cohort Human Difficulty - 专知论文

会员服务 ·

0

ML · 基准 · 精度 · 错误率 · 增益 ·

KCSAT-ML: Probing Reasoning Models with Nationwide-Cohort Human Difficulty

翻译：KCSAT-ML：基于全国队列人类难度基准的推理模型探测

Sanghee Park,Geewook Kim,Kee-Eung Kim

from arxiv, 18 pages, 14 figures, 8 tables

Math reasoning benchmarks have proliferated, yet most lack a per-item difficulty signal grounded in actual human performance. We introduce KCSAT-ML, a decade (2014-2025) of Korean College Scholastic Ability Test (KCSAT; Suneung) mathematics: 664 problems with a 339-item core set carrying official per-item error rates from nationwide cohorts of hundreds of thousands of examinees. We pair the benchmark with Difficulty-aligned Reasoning Gain (DRG): a score-orthogonal metric that asks whether a model's mistakes concentrate on the items humans found hard, or on items humans found easy. Together they expose, across a wide range of VLMs (and LLMs via OCR), three patterns: (i) low-budget accuracy collapses on the high-human-error tail at every model size; (ii) test-time scaling (TTS) raises token use roughly linearly with cohort error rate, while accuracy gains follow a non-monotonic curve; (iii) within a single family, TTS flips between anti-scaling on the hardest items and overthinking on easier ones -- two faces of the same alignment failure. On DRG, models with near-identical accuracy can sit at near-opposite values: one model gets wrong what humans also find hard, while another solves the hardest items yet fails on items humans find easy -- a contrast that aggregate accuracy hides. Our code and dataset builder will be open-sourced at https://github.com/naver-ai/KCSAT-ML.

翻译：数学推理基准测试不断涌现，但大多数缺乏基于真实人类表现的逐项难度信号。我们提出KCSAT-ML，包含2014-2025十年间的韩国大学修学能力考试（KCSAT；Suneung）数学试题：664道题，其中339道核心试题附带来自数十万考生全国队列的官方逐项错误率。我们为该基准配套提出难度对齐推理增益（DRG）：一种分数正交指标，用于评估模型的错误是集中在人类认为困难的题目上，还是集中在人类认为容易的题目上。两者结合，在多种视觉语言模型（及通过光学字符识别处理的纯语言模型）中揭示了三种模式：（i）在每种模型规模下，低预算精度在高人类错误率尾端崩溃；（ii）测试时扩展（TTS）使令牌使用量随队列错误率大致线性增加，而精度增益遵循非单调曲线；（iii）在同一模型家族内，TTS在最困难题目上的反缩放与较容易题目上的过度思考之间切换——这是同一对齐失败的两个方面。在DRG指标上，精度近乎相同的模型可能处于几乎相反的数值：一个模型在人类认为困难的题目上犯错，而另一个模型解决了最难的题目，却在人类认为容易的题目上失败——这种对比被聚合精度所掩盖。我们的代码和数据集构建工具将在 https://github.com/naver-ai/KCSAT-ML 开源。

0

相关内容

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

专知会员服务

11+阅读 · 2025年4月17日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

80+阅读 · 2025年2月14日

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

专知会员服务

45+阅读 · 2025年1月21日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

GPT-4在97轮对话中探索世界难题，给出P≠NP结论

GPT-4在97轮对话中探索世界难题，给出P≠NP结论

专知会员服务

27+阅读 · 2023年9月15日

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

专知会员服务

441+阅读 · 2023年5月4日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

斯坦福2019年深度学习NLP课程完结，视频（有字幕）已放出 | 附PPT、参考资料、优秀项目

斯坦福2019年深度学习NLP课程完结，视频（有字幕）已放出 | 附PPT、参考资料、优秀项目

量子位

13+阅读 · 2019年3月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

这套GitHub 1300星的NLP课程即将完结，视频授课，在线答疑丨课程

这套GitHub 1300星的NLP课程即将完结，视频授课，在线答疑丨课程

量子位

80+阅读 · 2018年11月14日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

黑龙江大学自然语言处理实验室

10+阅读 · 2017年11月13日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏数据条件下空间碎片精密轨道确定与预报的有关理论和方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

Arxiv

0+阅读 · 6月11日

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Arxiv

0+阅读 · 6月10日

FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs

Arxiv

0+阅读 · 5月29日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 5月27日

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Arxiv

0+阅读 · 5月19日

Social Human Robot Embodied Conversation (SHREC) Dataset: Benchmarking Foundational Models' Social Reasoning

Arxiv

0+阅读 · 5月12日

SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation

Arxiv

0+阅读 · 5月11日

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

Arxiv

0+阅读 · 4月17日

A Survey of Reasoning with Foundation Models

Arxiv

43+阅读 · 2024年1月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

专知会员服务

11+阅读 · 2025年4月17日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

80+阅读 · 2025年2月14日

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

DeepSeek最新开源的R1推理模型：DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

专知会员服务

45+阅读 · 2025年1月21日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

GPT-4在97轮对话中探索世界难题，给出P≠NP结论

GPT-4在97轮对话中探索世界难题，给出P≠NP结论

专知会员服务

27+阅读 · 2023年9月15日

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

专知会员服务

441+阅读 · 2023年5月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

斯坦福2019年深度学习NLP课程完结，视频（有字幕）已放出 | 附PPT、参考资料、优秀项目

斯坦福2019年深度学习NLP课程完结，视频（有字幕）已放出 | 附PPT、参考资料、优秀项目

量子位

13+阅读 · 2019年3月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

这套GitHub 1300星的NLP课程即将完结，视频授课，在线答疑丨课程

这套GitHub 1300星的NLP课程即将完结，视频授课，在线答疑丨课程

量子位

80+阅读 · 2018年11月14日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

资源 | Github项目：斯坦福大学CS-224n课程中深度NLP模型的PyTorch实现

黑龙江大学自然语言处理实验室

10+阅读 · 2017年11月13日

相关论文

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

Arxiv

0+阅读 · 6月11日

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Arxiv

0+阅读 · 6月10日

FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs

Arxiv

0+阅读 · 5月29日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 5月27日

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Arxiv

0+阅读 · 5月19日

Social Human Robot Embodied Conversation (SHREC) Dataset: Benchmarking Foundational Models' Social Reasoning

Arxiv

0+阅读 · 5月12日

SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation

Arxiv

0+阅读 · 5月11日

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

Arxiv

0+阅读 · 4月17日

A Survey of Reasoning with Foundation Models

Arxiv

43+阅读 · 2024年1月25日

相关基金

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏数据条件下空间碎片精密轨道确定与预报的有关理论和方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员