攀登推理阶梯：监督微调后，大型语言模型能解决什么——以及仍不能解决什么？ (Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?) - 专知论文

会员服务 ·

0

微调 · 监督 · 语言模型 · 数据集 · 监督微调 ·

Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?

翻译：攀登推理阶梯：监督微调后，大型语言模型能解决什么——以及仍不能解决什么？

Yiyou Sun,Georgia Zhou,Haoyue Bai,Hao Wang,Dacheng Li,Nouha Dziri,Dawn Song

Recent supervised fine-tuning (SFT) approaches have significantly improved language models' performance on mathematical reasoning tasks, even when models are trained at a small scale. However, the specific capabilities enhanced through such fine-tuning remain poorly understood. In this paper, we conduct a detailed analysis of model performance on the AIME24 dataset to understand how reasoning capabilities evolve. We discover a ladder-like structure in problem difficulty, categorize questions into four tiers (Easy, Medium, Hard, and Extremely Hard (Exh)), and identify the specific requirements for advancing between tiers. We find that progression from Easy to Medium tier requires adopting an R1 reasoning style with minimal SFT (500-1K instances), while Hard-level questions suffer from frequent model's errors at each step of the reasoning chain, with accuracy plateauing at around 65% despite logarithmic scaling. Exh-level questions present a fundamentally different challenge; they require unconventional problem-solving skills that current models uniformly struggle with. Additional findings reveal that carefully curated small-scale datasets offer limited advantage-scaling dataset size proves far more effective. Our analysis provides a clearer roadmap for advancing language model capabilities in mathematical reasoning.

翻译：最近的监督微调（SFT）方法显著提升了语言模型在数学推理任务上的性能，即使模型是在小规模上训练的。然而，通过此类微调增强的具体能力仍不甚明了。在本文中，我们对模型在AIME24数据集上的表现进行了详细分析，以理解推理能力如何演变。我们发现了问题难度呈现阶梯状结构，将问题划分为四个层级（简单、中等、困难、极难），并识别出在层级间进阶所需的具体要求。我们发现，从简单层级进阶到中等层级需要采用R1推理风格并辅以最少的SFT（500-1K个实例），而困难层级的问题则因模型在推理链的每一步频繁出错而受阻，尽管存在对数尺度增长，其准确率仍停滞在约65%。极难层级的问题提出了根本不同的挑战；它们需要非常规的问题解决技能，而当前模型普遍难以应对。其他发现表明，精心策划的小规模数据集带来的优势有限——扩大数据集规模被证明远为有效。我们的分析为推进语言模型在数学推理方面的能力提供了更清晰的路线图。

0

相关内容

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

面向大型语言模型推理的可信研究综述

面向大型语言模型推理的可信研究综述

专知会员服务

22+阅读 · 2025年9月6日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大规模语言模型推理的进展综述

大规模语言模型推理的进展综述

专知会员服务

56+阅读 · 2025年2月8日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient

Arxiv

0+阅读 · 2月2日

Learning to Reason in LLMs by Expectation Maximization

Arxiv

1+阅读 · 1月31日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration

Arxiv

0+阅读 · 1月30日

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

Arxiv

0+阅读 · 1月15日

Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks

Arxiv

0+阅读 · 1月9日

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 1月9日

Big Reasoning with Small Models: Instruction Retrieval at Inference Time

Arxiv

0+阅读 · 1月7日

How Does Prefix Matter in Reasoning Model Tuning?

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

相关VIP内容

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

面向大型语言模型推理的可信研究综述

面向大型语言模型推理的可信研究综述

专知会员服务

22+阅读 · 2025年9月6日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大规模语言模型推理的进展综述

大规模语言模型推理的进展综述

专知会员服务

56+阅读 · 2025年2月8日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

伊朗未来72小时：后哈梅内伊时代的秩序、指挥连续性与打击战略

大/小/微模型赋能先进制造：实践与思考，108页ppt

神经符号人工智能：黑盒模型时代下以任务为导向的综述

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient

Arxiv

0+阅读 · 2月2日

Learning to Reason in LLMs by Expectation Maximization

Arxiv

1+阅读 · 1月31日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration

Arxiv

0+阅读 · 1月30日

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

Arxiv

0+阅读 · 1月15日

Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks

Arxiv

0+阅读 · 1月9日

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 1月9日

Big Reasoning with Small Models: Instruction Retrieval at Inference Time

Arxiv

0+阅读 · 1月7日

How Does Prefix Matter in Reasoning Model Tuning?

Arxiv

0+阅读 · 1月4日

相关基金

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员