Chain-of-thought reasoning in large language models can trigger an "overthinking trap": longer rollouts raise cost and latency yet often yield unreliable accuracy gains. Existing methods use global, static controls that may suppress needed reasoning. We propose mastery-gated, sample-level, soft reinforcement learning compression that penalizes long rollouts only when the model already solves the problem and has produced a shorter rollout. Across benchmarks, it cuts response length by 20-40% with comparable or higher accuracy and generalizes across domains: a model trained on math spontaneously shortens unseen tasks (code, instruction following, general-knowledge QA) without hurting accuracy. We further show two-way transfer between non-agent CoT and tool-use agents: non-agent training reduces SWE-Bench Verified rounds by 13%, while compressing a thinking agent cuts SWE trajectories by 67% tokens and 52% rounds and shortens non-agent outputs by up to 44%. Compression is thus not cosmetic brevity, but an inherent computation policy -- what to keep, and what to forget.


翻译:大型语言模型中的思维链推理可能引发"过度思考陷阱":更长的推理过程会增加计算成本和延迟,却往往无法带来可靠的准确率提升。现有方法采用全局静态控制策略,可能抑制必要的推理过程。我们提出一种基于掌握度门控、样本级、软性强化学习的压缩方法,该方法仅在模型已解决问题且已生成更短推理过程时,才对长推理过程施加惩罚。在多个基准测试中,该方法将响应长度缩减20-40%,同时保持相当或更高的准确率,并展现出跨领域泛化能力:在数学领域训练的模型能自发缩短未见任务(代码生成、指令跟随、常识问答)的推理长度,且不损害准确率。我们进一步展示了非智能体思维链与工具使用智能体之间的双向迁移:非智能体训练将SWE-Bench验证轮次减少13%,而压缩思考型智能体可使SWE轨迹的标记数减少67%、轮次减少52%,并将非智能体输出缩短达44%。因此,压缩并非表面简洁化,而是一种内在的计算策略——决定保留什么,遗忘什么。

0
下载
关闭预览

相关内容

超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
大模型的模型压缩与有效推理综述
专知会员服务
43+阅读 · 2024年7月8日
【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关VIP内容
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
大模型的模型压缩与有效推理综述
专知会员服务
43+阅读 · 2024年7月8日
【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员