Knowledge distillation from powerful reasoning models is widely used to improve Small Language Models (SLMs) on mathematical reasoning, often assuming that traces with higher reward model scores provide more useful supervision. We identify a counterintuitive \textbf{Quality-Utility Paradox} in mathematical reasoning distillation. Data refined or synthesized by a stronger Oracle obtains higher perceived quality according to reward models, yet consistently underperforms traces generated by the SLM itself and selected through rejection sampling across Qwen2.5, LLaMA-3, and DeepSeek families. Our analysis shows that Oracle refinement couples logical repair with distributional drift away from the SLM's native reasoning distribution. This drift increases the learner's adaptation cost and can outweigh the benefit of improved reasoning logic. To test this mechanism, we introduce \textbf{Style-Aligned Refinement}, which preserves the native trajectory of the SLM while retaining logical repair from the Oracle. This intervention lowers adaptation cost and restores downstream utility. These findings suggest that effective mathematical reasoning distillation should jointly optimize perceived solution quality and learner-data compatibility, rather than relying solely on reward-model scores. The datasets and code are available at https://github.com/Dracoqhl/Quality-Utility-Paradox.


翻译:从强大推理模型中进行知识蒸馏被广泛用于提升小型语言模型(SLM)在数学推理任务上的表现,其潜在假设是:具有更高奖励模型评分的轨迹能提供更有用的监督信号。然而,我们在数学推理蒸馏中发现了一个反直觉的**质量-效用悖论**。经过更强Oracle模型精炼或合成的数据,根据奖励模型评分虽然具有更高的感知质量,但在Qwen2.5、LLaMA-3和DeepSeek系列模型上,其表现始终不如由SLM自身生成并通过拒绝采样选出的轨迹。我们的分析表明,Oracle精炼在修复逻辑错误的同时,也导致了SLM原生推理分布的偏移。这种偏移增加了学习者的适配代价,可能抵消改进推理逻辑带来的收益。为验证这一机制,我们引入了**风格对齐精炼**方法,该方法在保留Oracle逻辑修复功能的同时,保持了SLM的原生轨迹风格。该干预措施降低了适配代价并恢复了下游效用。这些发现表明,有效的数学推理蒸馏应同时优化感知解答质量与学习者-数据兼容性,而非单纯依赖奖励模型评分。相关数据集和代码已开源在https://github.com/Dracoqhl/Quality-Utility-Paradox。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
【阿里千问】在数学推理中开发过程奖励模型的经验教训
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员