Despite chain-of-thought (CoT) playing crucial roles in LLM reasoning, directly rewarding it is difficult: training a reward model demands heavy human labeling efforts, and static RMs struggle with evolving CoT distributions and reward hacking. These challenges motivate us to seek an autonomous CoT rewarding approach that requires no human annotation efforts and can evolve gradually. Inspired by recent self-evolving training methods, we propose \textbf{RLCER} (\textbf{R}einforcement \textbf{L}earning with \textbf{C}oT Supervision via Self-\textbf{E}volving \textbf{R}ubrics), which enhances the outcome-centric RLVR by rewarding CoTs with self-proposed and self-evolving rubrics. We show that self-proposed and self-evolving rubrics provide reliable CoT supervision signals even without outcome rewards, enabling RLCER to outperform outcome-centric RLVR. Moreover, when used as in-prompt hints, these self-proposed rubrics further improve inference-time performance.


翻译:尽管思维链(CoT)在大语言模型推理中发挥着关键作用,但直接对其进行奖励存在困难:训练奖励模型需要大量人工标注工作,而静态奖励模型难以适应不断演化的CoT分布并容易受到奖励攻击。这些挑战促使我们寻求一种无需人工标注、能够自主演化的CoT奖励方法。受近期自演化训练方法的启发,我们提出\textbf{RLCER}(基于自演化评分标准的思维链监督强化学习),该方法通过自提出且自演化的评分标准对CoT进行奖励,从而增强以结果为中心的RLVR框架。研究表明,即使在没有结果奖励的情况下,自提出且自演化的评分标准仍能提供可靠的CoT监督信号,使得RLCER的性能优于以结果为中心的RLVR。此外,当将这些自提出的评分标准作为提示线索使用时,还能进一步提升推理阶段的性能表现。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
超越思维链:大型语言模型的X链范式综述
专知会员服务
52+阅读 · 2024年4月28日
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
自监督学习理论
专知会员服务
57+阅读 · 2022年8月23日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
182+阅读 · 2020年5月29日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
超越思维链:大型语言模型的X链范式综述
专知会员服务
52+阅读 · 2024年4月28日
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
自监督学习理论
专知会员服务
57+阅读 · 2022年8月23日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
182+阅读 · 2020年5月29日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员