In aligning large language models (LLMs), reward models have played an important role, but are standardly trained as discriminative models and rely only on labeled human preference data. In this paper, we explore methods that train reward models using both unlabeled and labeled data. Building on the generative models in LLMs, we develop a generative reward model that is first trained via large-scale unsupervised learning and then fine-tuned via supervised learning. We also show that by using label smoothing, we are in fact optimizing a regularized pairwise ranking loss. This result, in turn, provides a new view of training reward models, which links generative models and discriminative models under the same class of training objectives. The outcome of these techniques is a foundation reward model, which can be applied to a wide range of tasks with little or no further fine-tuning effort. Extensive experiments show that this model generalizes well across several tasks, including response ranking, reinforcement learning from human feedback, and task adaptation with fine-tuning, achieving significant performance improvements over several strong baseline models.


翻译:在对齐大型语言模型(LLMs)的过程中,奖励模型发挥着重要作用,但传统方法通常将其训练为判别式模型,且仅依赖标注的人类偏好数据。本文探索了利用未标注和已标注数据联合训练奖励模型的方法。基于LLMs中的生成式模型架构,我们开发了一种生成式奖励模型:首先通过大规模无监督学习进行预训练,随后通过监督学习进行微调。我们还证明,通过使用标签平滑技术,实际上是在优化一种正则化的成对排序损失。这一结果反过来为训练奖励模型提供了新的视角,将生成式模型与判别式模型在同一类训练目标下联系起来。这些技术最终产生了一个基础奖励模型,该模型可广泛应用于多种任务,且无需或仅需极少额外微调。大量实验表明,该模型在多项任务中均表现出良好的泛化能力,包括响应排序、基于人类反馈的强化学习以及微调任务适应,相较于多个强基线模型取得了显著的性能提升。

0
下载
关闭预览

相关内容

面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
【阿里千问】在数学推理中开发过程奖励模型的经验教训
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员