Chain-of-Thought (CoT) reasoning successfully enhances the reasoning capabilities of Large Language Models (LLMs), yet it incurs substantial computational overhead for inference. Existing CoT compression methods often suffer from a critical loss of logical fidelity at high compression ratios, resulting in significant performance degradation. To achieve high-fidelity, fast reasoning, we propose a novel EXTreme-RAtio Chain-of-Thought Compression framework, termed Extra-CoT, which aggressively reduces the token budget while preserving answer accuracy. To generate reliable, high-fidelity supervision, we first train a dedicated semantically-preserved compressor on mathematical CoT data with fine-grained annotations. An LLM is then fine-tuned on these compressed pairs via a mixed-ratio supervised fine-tuning (SFT), teaching it to follow a spectrum of compression budgets and providing a stable initialization for reinforcement learning (RL). We further propose Constrained and Hierarchical Ratio Policy Optimization (CHRPO) to explicitly incentivize question-solving ability under lower budgets by a hierarchical reward. Experiments on three mathematical reasoning benchmarks show the superiority of Extra-CoT. For example, on MATH-500 using Qwen3-1.7B, Extra-CoT achieves over 73\% token reduction with an accuracy improvement of 0.6\%, significantly outperforming state-of-the-art (SOTA) methods. Our source codes have been released at https://github.com/Mwie1024/Extra-CoT.


翻译:思维链(Chain-of-Thought, CoT)推理有效增强了大型语言模型(LLMs)的推理能力,但同时也带来了显著的计算开销。现有CoT压缩方法在高压缩比下常出现关键性的逻辑保真度损失,导致性能严重下降。为实现高保真度的快速推理,我们提出了一种新颖的极端压缩比思维链框架,命名为Extra-CoT,该框架在保留答案准确性的同时,激进地减少token预算。为生成可靠的高保真度监督信号,我们首先在带有细粒度标注的数学CoT数据上,训练了一个专用的语义保持压缩器。随后,通过混合比例的监督微调(SFT)对LLM在这些压缩数据对上进行微调,使其能适应不同压缩预算,并为强化学习(RL)提供稳定的初始化。我们进一步提出了约束层级比率策略优化(CHRPO),通过层级奖励显式激励模型在较低预算下的解题能力。在三个数学推理基准上的实验表明,Extra-CoT具有优越性。例如,在MATH-500上使用Qwen3-1.7B时,Extra-CoT在实现超过73%的token缩减的同时,准确率提升了0.6%,显著优于当前最先进(SOTA)方法。我们的源代码已在https://github.com/Mwie1024/Extra-CoT 公开。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大语言模型中的隐式推理:综合综述
专知会员服务
33+阅读 · 2025年9月4日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
40+阅读 · 2025年3月17日
超越思维链:大型语言模型的X链范式综述
专知会员服务
53+阅读 · 2024年4月28日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 6月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大语言模型中的隐式推理:综合综述
专知会员服务
33+阅读 · 2025年9月4日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
40+阅读 · 2025年3月17日
超越思维链:大型语言模型的X链范式综述
专知会员服务
53+阅读 · 2024年4月28日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员