Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling - 专知论文

会员服务 ·

0

词元 · 调度 · 解耦 · 课程 · 数据调度 ·

Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling

翻译：基于解耦奖励与课程数据调度的过度思考削减方法

Shuyang Jiang,Yusheng Liao,Ya Zhang,Yanfeng Wang,Yu Wang

from arxiv, 30 pages; Accepted as an oral presentation at ICLR 2026

While large reasoning models trained with critic-free reinforcement learning and verifiable rewards (RLVR) represent the state-of-the-art, their practical utility is hampered by ``overthinking'', a critical issue where models generate excessively long reasoning paths without any performance benefit. Existing solutions that penalize length often fail, inducing performance degradation due to a fundamental misalignment between trajectory-level rewards and token-level optimization. In this work, we introduce a novel framework, DECS, built on our theoretical discovery of two previously unaddressed flaws in current length rewards: (1) the erroneous penalization of essential exploratory tokens and (2) the inadvertent rewarding of partial redundancy. Our framework's innovations include (i) a first-of-its-kind decoupled token-level reward mechanism that surgically distinguishes and penalizes redundant tokens, and (ii) a novel curriculum batch scheduling strategy to master the efficiency-efficacy equilibrium. Experimental results show DECS can achieve a dramatic reduction in reasoning tokens by over 50\% across seven benchmarks while simultaneously maintaining or even improving performance. It demonstrates conclusively that substantial gains in reasoning efficiency can be achieved without compromising a model's underlying reasoning power. Code is available at https://github.com/pixas/DECS.

翻译：尽管采用无批评强化学习与可验证奖励训练的大型推理模型代表了当前最高水平，但其实际应用受到"过度思考"问题的严重制约——该关键问题表现为模型生成长度过度的推理路径却未带来任何性能提升。现有通过惩罚长度来解决问题的方案往往失效，甚至因轨迹级奖励与词元级优化之间的根本性错配而导致性能下降。本工作中，我们提出了一个名为DECS的新型框架，其理论基础是我们对当前长度奖励机制中两个尚未被揭示的缺陷的理论发现：(1) 对必要探索性词元的错误惩罚；(2) 对部分冗余内容的无意识奖励。本框架的创新点包括：(i) 首创的解耦词元级奖励机制，能够精准区分并惩罚冗余词元；(ii) 新颖的课程批次调度策略，以掌握效率与效能的平衡。实验结果表明，DECS在七个基准测试中实现了推理词元数量超过50%的显著削减，同时保持甚至提升了模型性能。这确凿证明，在不损害模型底层推理能力的前提下，可以实现推理效率的大幅提升。代码发布于 https://github.com/pixas/DECS。

0

相关内容

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

26+阅读 · 2025年4月5日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

专知会员服务

43+阅读 · 2022年11月11日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

《过参数化机器学习理论》综述论文

《过参数化机器学习理论》综述论文

专知会员服务

46+阅读 · 2021年9月19日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

如何理解模型的过拟合与欠拟合，以及如何解决？

如何理解模型的过拟合与欠拟合，以及如何解决？

七月在线实验室

12+阅读 · 2019年4月23日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

大学生实习失度性研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Arxiv

0+阅读 · 4月17日

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Arxiv

0+阅读 · 4月2日

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 4月1日

Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking

Arxiv

0+阅读 · 3月30日

ROM: Real-time Overthinking Mitigation via Streaming Detection and Intervention

Arxiv

0+阅读 · 3月23日

Balancing the Reasoning Load: Difficulty-Differentiated Policy Optimization with Length Redistribution for Efficient and Robust Reinforcement Learning

Arxiv

0+阅读 · 3月20日

Efficient Reasoning with Balanced Thinking

Arxiv

0+阅读 · 3月19日

GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models

Arxiv

0+阅读 · 3月14日

Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning

Arxiv

0+阅读 · 2月20日

Batch Prompting Suppresses Overthinking Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

1+阅读 · 今天12:32

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

1+阅读 · 今天12:28

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

10+阅读 · 今天3:53

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

专知会员服务

21+阅读 · 今天3:03

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

专知会员服务

15+阅读 · 今天2:35

《实现协作自主：从人机团队到多智能体系统》190页

《实现协作自主：从人机团队到多智能体系统》190页

专知会员服务

11+阅读 · 今天2:31

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

专知会员服务

7+阅读 · 今天2:28

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

专知会员服务

8+阅读 · 今天2:25

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

4+阅读 · 5月12日

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

8+阅读 · 5月12日

《美军软件工厂案例研究：空军数字人才的人员需求》

《美军软件工厂案例研究：空军数字人才的人员需求》

专知会员服务

11+阅读 · 5月12日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

11+阅读 · 5月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

22+阅读 · 5月12日

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

10+阅读 · 5月12日

下一代软件定义无线电：锻造现代战场的数字支柱

下一代软件定义无线电：锻造现代战场的数字支柱

专知会员服务

9+阅读 · 5月12日

相关VIP内容

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

26+阅读 · 2025年4月5日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

【UFPE大学博士论文】基于熵损失的鲁棒深度学习

专知会员服务

43+阅读 · 2022年11月11日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

《过参数化机器学习理论》综述论文

《过参数化机器学习理论》综述论文

专知会员服务

46+阅读 · 2021年9月19日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

世界动作模型: 具身AI的下一个前沿

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

【博士论文】面向可扩展且可信智能系统的强化学习

全球十大防空反导系统：列表、射程与用途

相关资讯

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

如何理解模型的过拟合与欠拟合，以及如何解决？

如何理解模型的过拟合与欠拟合，以及如何解决？

七月在线实验室

12+阅读 · 2019年4月23日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

相关论文

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Arxiv

0+阅读 · 4月17日

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Arxiv

0+阅读 · 4月2日

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 4月1日

Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking

Arxiv

0+阅读 · 3月30日

ROM: Real-time Overthinking Mitigation via Streaming Detection and Intervention

Arxiv

0+阅读 · 3月23日

Balancing the Reasoning Load: Difficulty-Differentiated Policy Optimization with Length Redistribution for Efficient and Robust Reinforcement Learning

Arxiv

0+阅读 · 3月20日

Efficient Reasoning with Balanced Thinking

Arxiv

0+阅读 · 3月19日

GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models

Arxiv

0+阅读 · 3月14日

Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning

Arxiv

0+阅读 · 2月20日

Batch Prompting Suppresses Overthinking Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models

Arxiv

0+阅读 · 2月20日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

大学生实习失度性研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员