The widespread adoption of reinforcement learning-based alignment highlights the growing importance of reward models. Various benchmarks have been built to evaluate reward models in various domains and scenarios. However, a significant gap remains in assessing reward models for long-form generation, despite its critical role in real-world applications. To bridge this, we introduce Long-form RewardBench, the first reward modeling testbed specifically designed for long-form generation. Our benchmark encompasses five key subtasks: QA, RAG, Chat, Writing, and Reasoning. We collected instruction and preference data through a meticulously designed multi-stage data collection process, and conducted extensive experiments on 20+ mainstream reward models, including both classifiers and generative models. Our findings reveal that current models still lack long-form reward modeling capabilities. Furthermore, we designed a novel Long-form Needle-in-a-Haystack Test, which revealed a correlation between reward modeling performance and the error's position within a response, as well as the overall response length, with distinct characteristics observed between classification and generative models. Finally, we demonstrate that classifiers exhibit better generalizability compared to generative models trained on the same data. As the first benchmark for long-form reward modeling, this work aims to offer a robust platform for visualizing progress in this crucial area.


翻译:基于强化学习的对齐方法被广泛采用,突显了奖励模型日益增长的重要性。目前已有多种基准被构建用于评估不同领域和场景下的奖励模型。然而,尽管长文本生成在实际应用中至关重要,但在评估长文本生成的奖励模型方面仍存在显著空白。为填补这一空白,我们引入了长文本奖励基准,这是首个专门为长文本生成设计的奖励建模测试平台。我们的基准涵盖五个关键子任务:问答、检索增强生成、对话、写作和推理。我们通过精心设计的多阶段数据收集流程收集了指令和偏好数据,并对20多个主流奖励模型(包括分类器和生成模型)进行了广泛的实验。我们的研究结果表明,当前模型仍缺乏长文本奖励建模能力。此外,我们设计了一种新颖的长文本“大海捞针”测试,揭示了奖励模型性能与错误在响应中的位置以及整体响应长度之间的相关性,并且在分类模型和生成模型之间观察到了不同的特性。最后,我们证明了在相同数据上训练的分类器比生成模型表现出更好的泛化能力。作为首个长文本奖励建模基准,这项工作旨在为可视化这一关键领域的进展提供一个稳健的平台。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
大语言模型长文本训练技术解析
专知会员服务
37+阅读 · 2024年10月17日
最新综述:速览Transformer长文本建模研究进展
专知会员服务
46+阅读 · 2023年3月15日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员