Reinforcement Learning with Verifiable Rewards (RLVR) has recently strengthened LLM reasoning, but its focus on final answer correctness leaves a critical gap: it does not ensure the robustness of the reasoning process itself. We adopt a simple philosophical view, robust reasoning should remain useful beyond the mind that produced it, and treat reasoning as a form of meaning transfer that must survive truncation, reinterpretation, and continuation. Building on this principle, we introduce Reinforcement Learning with Transferable Reward (RLTR), which operationalizes robustness via transfer reward that tests whether a partial reasoning prefix from one model can guide a separate model to the correct answer. This encourages LLMs to produce reasoning that is stable, interpretable, and genuinely generalizable. Our approach improves sampling consistency while improving final answer accuracy, and it reaches comparable performance in substantially fewer training steps. For example, on MATH500, RLTR achieves a +3.6%p gain in Maj@64 compared to RLVR and matches RLVR's average accuracy with roughly 2.5x fewer training steps, providing both more reliable reasoning and significantly more sample efficient.


翻译:基于可验证奖励的强化学习(RLVR)近期增强了大型语言模型的推理能力,但其对最终答案正确性的关注存在一个关键缺陷:它无法保证推理过程本身的鲁棒性。我们采用一个简单的哲学观点:鲁棒的推理应在其产生者之外保持效用,并将推理视为一种意义迁移形式,必须能够经受截断、重新解释和延续的考验。基于这一原则,我们提出了基于可迁移奖励的强化学习(RLTR),该方法通过可迁移奖励来具体化鲁棒性——该奖励测试一个模型产生的部分推理前缀能否引导另一个独立模型得出正确答案。这促使大型语言模型生成稳定、可解释且真正具备泛化能力的推理过程。我们的方法在提升采样一致性的同时提高了最终答案准确率,并能以显著更少的训练步骤达到可比性能。例如在MATH500数据集上,RLTR在Maj@64指标上较RLVR提升+3.6个百分点,并以约2.5倍更少的训练步骤达到RLVR的平均准确率,在提供更可靠推理的同时实现了显著更高的样本效率。

0
下载
关闭预览

相关内容

因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
34+阅读 · 2025年12月24日
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
专知会员服务
26+阅读 · 2021年4月13日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员