Despite the success of reinforcement learning from human feedback (RLHF) in aligning language models, current reward modeling heavily relies on experimental feedback data collected from human annotators under controlled and costly conditions. In this work, we introduce observational reward modeling -- learning reward models with observational user feedback (e.g., clicks, copies, and upvotes) -- as a scalable and cost-effective alternative. We identify two fundamental challenges in this setting: (1) observational feedback is noisy due to annotation errors, which deviates it from true user preference; (2) observational feedback is biased by user preference, where users preferentially provide feedback on responses they feel strongly about, which creats a distribution shift between training and inference data. To address these challenges, we propose CausalRM, a causal-theoretic reward modeling framework that aims to learn unbiased reward models from observational feedback. To tackle challenge (1), CausalRM introduces a noise-aware surrogate loss term that is provably equivalent to the primal loss under noise-free conditions by explicitly modeling the annotation error generation process. To tackle challenge (2), CausalRM uses propensity scores -- the probability of a user providing feedback for a given response -- to reweight training samples, yielding a loss function that eliminates user preference bias. Extensive experiments across diverse LLM backbones and benchmark datasets validate that CausalRM effectively learns accurate reward signals from noisy and biased observational feedback and delivers substantial performance improvements on downstream RLHF tasks -- including a 49.2% gain on WildGuardMix and a 32.7% improvement on HarmBench. Code is available on our project website.


翻译:尽管基于人类反馈的强化学习(RLHF)在语言模型对齐方面取得了成功,但当前的奖励建模严重依赖从人类标注者在受控且昂贵的条件下收集的实验反馈数据。本文提出了一种观测奖励建模方法——利用观测性用户反馈(如点击、复制和点赞)学习奖励模型——作为可扩展且成本效益更高的替代方案。我们识别了该场景下的两个根本性挑战:(1)由于标注错误,观测反馈存在噪声,导致其偏离真实用户偏好;(2)观测反馈受用户偏好影响,用户倾向于对自己感受强烈的回复提供反馈,这造成了训练数据与推理数据之间的分布偏移。为解决这些问题,我们提出CausalRM,一种基于因果理论的奖励建模框架,旨在从观测反馈中学习无偏奖励模型。针对挑战(1),CausalRM通过显式建模标注错误的生成过程,引入了一个噪声感知的代理损失项,该损失项在无噪声条件下等价于原始损失。针对挑战(2),CausalRM使用倾向分数(即用户对给定回复提供反馈的概率)对训练样本进行加权,从而得到消除用户偏好偏差的损失函数。在多种大语言模型(LLM)骨干网络和基准数据集上的大量实验验证表明,CausalRM能够从含噪且有偏的观测反馈中有效学习准确的奖励信号,并在下游RLHF任务中带来显著的性能提升——包括WildGuardMix上49.2%的增益和HarmBench上32.7%的提升。代码已发布于项目网站。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员