In this paper, we explore how directly pretraining a value model simplifies and stabilizes reinforcement learning from human feedback (RLHF). In reinforcement learning, value estimation is the key to policy optimization, distinct from reward supervision. The value function predicts the \emph{return-to-go} of a partial answer, that is, how promising the partial answer is if it were continued to completion. In RLHF, however, the standard pipeline first pretrains a reward model and then learns a value function online, even though no new reward signals are available once preference data is collected. This makes critic learning redundant, as the process of training a reward model and then deriving a value model is informationally equivalent to directly pretraining a value model. Importantly, this requires no additional supervision, and our value model is trained on exactly the same data used for reward modeling. Building on this insight, we introduce \emph{Decoupled Value Policy Optimization} (DVPO), a framework that pretrains a \emph{Global Value Model} (GVM) offline and freezes it as a universal critic for policy learning. The GVM provides stable, fine-grained credit assignment without critic drift or trajectory sampling. Experiments across MT-Bench, Alpaca-Eval, and Arena-Hard demonstrate that DVPO matches or surpasses state-of-the-art RLHF methods. These results highlight RLHF can be reframed as policy-only optimization guided by a single pretrained value model.


翻译:本文探讨了直接预训练价值模型如何简化和稳定基于人类反馈的强化学习(RLHF)。在强化学习中,价值估计是策略优化的关键,这与奖励监督有本质区别。价值函数预测部分答案的\emph{未来累积回报},即若将当前部分答案继续完善至完成,其前景如何。然而在RLHF的标准流程中,通常先预训练奖励模型,再在线学习价值函数,尽管在收集偏好数据后并无新的奖励信号可用。这使得评论家学习变得冗余,因为训练奖励模型再推导价值模型的过程,在信息层面等同于直接预训练价值模型。重要的是,该方法无需额外监督,我们的价值模型训练数据与奖励建模完全一致。基于这一洞见,我们提出\emph{解耦价值策略优化}(DVPO)框架,该框架离线预训练\emph{全局价值模型}(GVM)并将其冻结为策略学习的通用评论家。GVM提供稳定、细粒度的信用分配,避免了评论家漂移或轨迹采样问题。在MT-Bench、Alpaca-Eval和Arena-Hard上的实验表明,DVPO达到或超越了当前最先进的RLHF方法。这些结果证明,RLHF可被重新定义为由单一预训练价值模型指导的纯策略优化过程。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员