Large reasoning models trained with reinforcement learning and verifiable rewards (RLVR) achieve strong performance on complex reasoning tasks, yet often overthink, generating redundant reasoning without performance gains. Existing trajectory-level length penalties often fail to effectively shorten reasoning length and degrade accuracy, as they uniformly treat all reasoning steps and lack fine-grained signals to distinguish redundancy from necessity. Meanwhile, process-supervised methods are typically resource-intensive and suffer from inaccurate credit assignment. To address these issues, we propose ATTNPO, a low-overhead process-supervised RL framework that leverages the model's intrinsic attention signals for step-level credit assignment. We first identify a set of special attention heads that naturally focus on essential steps while suppressing redundant ones. By leveraging the attention scores of these heads, We then employ two sub-strategies to mitigate overthinking by discouraging redundant steps while preserving accuracy by reducing penalties on essential steps. Experimental results show that ATTNPO substantially reduces reasoning length while significantly improving performance across 9 benchmarks.


翻译:通过强化学习和可验证奖励训练的大型推理模型在复杂推理任务上表现强劲,但常出现“过度思考”现象,即生成冗余推理而性能未见提升。现有轨迹级长度惩罚方法通常无法有效缩短推理长度且会降低准确性,因为它们统一处理所有推理步骤,缺乏区分冗余与必要性的细粒度信号。同时,过程监督方法通常资源消耗大且存在信用分配不准确的问题。为解决这些问题,我们提出ATTPNO——一种低开销的过程监督强化学习框架,利用模型内在的注意力信号进行步骤级信用分配。我们首先识别出一组特殊的注意力头,它们天生关注必要步骤而抑制冗余步骤。通过利用这些注意力头的分数,我们采用两种子策略:通过抑制冗余步骤缓解过度思考,同时通过减少对必要步骤的惩罚来保持准确性。实验结果表明,ATTPNO在9个基准测试中显著缩短了推理长度,同时大幅提升了性能。

0
下载
关闭预览

相关内容

【阿里千问】在数学推理中开发过程奖励模型的经验教训
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
51+阅读 · 2020年8月25日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【阿里千问】在数学推理中开发过程奖励模型的经验教训
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
51+阅读 · 2020年8月25日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员