Reward models (RMs) are central to aligning large language models (LLMs) with human values but have received less attention than pre-trained and post-trained LLMs themselves. Because RMs are initialized from LLMs, they inherit representations that shape their behavior, but the nature and extent of this influence remain understudied. In a comprehensive study of 10 leading open-weight RMs using validated psycholinguistic corpora, we show that RMs exhibit significant differences along multiple dimensions of human value as a function of their base model. Using the "Big Two" psychological axes, we show a robust preference of Llama RMs for "agency" and a corresponding robust preference of Gemma RMs for "communion." This phenomenon holds even when the preference data and finetuning process are identical, and we trace it back to the logits of the respective instruction-tuned and pre-trained models. These log-probability differences themselves can be formulated as an implicit RM; we derive usable implicit reward scores and show that they exhibit the very same agency/communion difference. We run experiments training RMs with ablations for preference data source and quantity, which demonstrate that this effect is not only repeatable but surprisingly durable. Despite RMs being designed to represent human preferences, our evidence shows that their outputs are influenced by the pretrained LLMs on which they are based. This work underscores the importance of safety and alignment efforts at the pretraining stage, and makes clear that open-source developers' choice of base model is as much a consideration of values as of performance.


翻译:奖励模型(RMs)是将大语言模型(LLMs)与人类价值观对齐的核心,但其受到的关注度低于预训练及后训练的LLMs本身。由于RMs初始化为LLMs,它们继承了塑造其行为的表征,但这种影响的性质与程度仍未得到充分研究。通过使用经过验证的心理语言学语料库对10个领先的开源权重RMs进行综合研究,我们发现RMs在人类价值的多个维度上表现出显著差异,且差异取决于其基础模型。利用"大二"心理轴,我们展示了Llama系列RMs对"能动性"的强烈偏好,以及Gemma系列RMs对"共融性"的相应强烈偏好。即使偏好数据与微调过程完全相同,此现象依然存在;我们将其追溯至各自经过指令微调与预训练模型的logits。这些对数概率差异本身可被表述为一个隐式RM;我们推导出可用的隐式奖励分数,并证明其表现出完全相同的能动性/共融性差异。我们进行了针对偏好数据来源与数量的消融实验来训练RMs,结果表明该效应不仅可重复,且具有惊人的持久性。尽管RMs旨在代表人类偏好,但我们的证据显示其输出受到所基于的预训练LLMs的影响。这项工作强调了预训练阶段安全与对齐工作的重要性,并明确指出开源开发者选择基础模型时,价值观考量与性能考量同等重要。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
【阿里千问】在数学推理中开发过程奖励模型的经验教训
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员