Reward modeling (RM), which captures human preferences to align large language models (LLMs), is increasingly employed in tasks such as model finetuning, response filtering, and ranking. However, due to the inherent complexity of human preferences and the limited coverage of available datasets, reward models often fail under distributional shifts or adversarial perturbations. Existing approaches for identifying such failure modes typically rely on prior knowledge about preference distributions or failure attributes, limiting their practicality in real-world settings where such information is unavailable. In this work, we propose a tractable, preference-distribution agnostic method for discovering reward model failure modes via reward guided controlled decoding. Building on this, we introduce REFORM, a self-improving reward modeling framework that enhances robustness by using the reward model itself to guide the generation of falsely scored responses. These adversarial examples are then used to augment the training data and patch the reward model's misaligned behavior. We evaluate REFORM on two widely used preference datasets Anthropic Helpful Harmless (HH) and PKU Beavertails and demonstrate that it significantly improves robustness without sacrificing reward quality. Notably, REFORM preserves performance both in direct evaluation and in downstream policy training, and further improves alignment quality by removing spurious correlations.


翻译:奖励建模(Reward Modeling, RM)通过捕捉人类偏好来对齐大型语言模型(LLMs),在模型微调、响应筛选和排序等任务中应用日益广泛。然而,由于人类偏好的固有复杂性和可用数据集的有限覆盖,奖励模型在分布偏移或对抗性扰动下常出现失效。现有识别此类失效模式的方法通常依赖于对偏好分布或失效属性的先验知识,这限制了它们在缺乏此类信息的实际场景中的实用性。在本工作中,我们提出了一种可操作的、与偏好分布无关的方法,通过奖励引导的受控解码来发现奖励模型的失效模式。基于此,我们提出REFORM——一种自我改进的奖励建模框架,通过利用奖励模型本身指导生成错误评分的响应来增强鲁棒性。这些对抗性样本随后用于扩充训练数据,修补奖励模型的失配行为。我们在两个广泛使用的偏好数据集——Anthropic Helpful Harmless(HH)和PKU Beavertails上评估REFORM,证明其在不牺牲奖励质量的前提下显著提升了鲁棒性。值得注意的是,REFORM在直接评估和下游策略训练中均保持性能,并通过消除虚假相关性进一步改善了对齐质量。

0
下载
关闭预览

相关内容

大语言模型的自改进机制:技术综述与未来展望
专知会员服务
17+阅读 · 4月18日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2025】从混淆的离线数据中自动构造奖励函数
专知会员服务
9+阅读 · 2025年5月22日
【ICML2025】关于语言模型对齐中奖励模型稳健性的研究
专知会员服务
14+阅读 · 2025年5月13日
【阿里千问】在数学推理中开发过程奖励模型的经验教训
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员