Reward Modeling from Natural Language Human Feedback - 专知论文

会员服务 ·

0

奖励模型 · 模型生成 · 监督 · 强化学习 · 噪声 ·

Reward Modeling from Natural Language Human Feedback

翻译：基于自然语言人类反馈的奖励建模

Zongqi Wang,Rui Wang,Yuchuan Wu,Yiyao Yu,Pinyi Zhang,Shaoning Sun,Yujiu Yang,Yongbin Li

Reinforcement Learning with Verifiable reward (RLVR) on preference data has become the mainstream approach for training Generative Reward Models (GRMs). Typically in pairwise rewarding tasks, GRMs generate reasoning chains ending with critiques and preference labels, and RLVR then relies on the correctness of the preference labels as the training reward. However, in this paper, we demonstrate that such binary classification tasks make GRMs susceptible to guessing correct outcomes without sound critiques. Consequently, these spurious successes introduce substantial noise into the reward signal, thereby impairing the effectiveness of reinforcement learning. To address this issue, we propose Reward Modeling from Natural Language Human Feedback (RM-NLHF), which leverages natural language feedback to obtain process reward signals, thereby mitigating the problem of limited solution space inherent in binary tasks. Specifically, we compute the similarity between GRM-generated and human critiques as the training reward, which provides more accurate reward signals than outcome-only supervision. Additionally, considering that human critiques are difficult to scale up, we introduce Meta Reward Model (MetaRM) which learns to predict process reward from datasets with human critiques and then generalizes to data without human critiques. Experiments on multiple benchmarks demonstrate that our method consistently outperforms state-of-the-art GRMs trained with outcome-only reward, confirming the superiority of integrating natural language over binary human feedback as supervision.

翻译：基于偏好数据的可验证奖励强化学习已成为训练生成式奖励模型的主流方法。在典型的成对奖励任务中，生成式奖励模型生成以评论和偏好标签结尾的推理链，随后可验证奖励强化学习依赖偏好标签的正确性作为训练奖励。然而，本文证明此类二元分类任务易使生成式奖励模型在缺乏合理评论的情况下猜测出正确结果。这些虚假成功会向奖励信号引入显著噪声，从而损害强化学习的有效性。为解决该问题，我们提出基于自然语言人类反馈的奖励建模方法，该方法利用自然语言反馈获取过程奖励信号，从而缓解二元任务中解空间有限的问题。具体而言，我们通过计算生成式奖励模型生成的评论与人类评论之间的相似度作为训练奖励，这比仅基于结果的监督能提供更精确的奖励信号。此外，考虑到人类评论难以规模化获取，我们提出元奖励模型，该模型通过含人类评论的数据集学习预测过程奖励，并泛化至无人为评论的数据。在多个基准测试上的实验表明，我们的方法始终优于采用纯结果奖励训练的最先进生成式奖励模型，证实了将自然语言反馈作为监督信号相较于二元人类反馈的优越性。

0

相关内容

奖励模型

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

专知会员服务

19+阅读 · 2025年7月5日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【伯克利博士论文】以人为中心的奖励设计

【伯克利博士论文】以人为中心的奖励设计

专知会员服务

28+阅读 · 2024年9月23日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

专知会员服务

22+阅读 · 2024年5月25日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

专知会员服务

30+阅读 · 2023年10月10日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

外部激励对网络口碑传播行为和说服力的影响：基于大数据分析和行为实验的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

CHARM: Calibrating Reward Models With Chatbot Arena Scores

Arxiv

0+阅读 · 3月17日

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback

Arxiv

0+阅读 · 3月4日

Hierarchical Reward Design from Language: Enhancing Alignment of Agent Behavior with Human Specifications

Arxiv

0+阅读 · 2月20日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

MARS: Margin-Aware Reward-Modeling with Self-Refinement

MARS: Margin-Aware Reward-Modeling with Self-Refinement

Arxiv

0+阅读 · 2月19日

Capturing Individual Human Preferences with Reward Features

Arxiv

0+阅读 · 2月19日

Expanding the Capabilities of Reinforcement Learning via Text Feedback

Arxiv

0+阅读 · 2月11日

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

Arxiv

0+阅读 · 2月10日

Bayesian Preference Learning for Test-Time Steerable Reward Models

Arxiv

0+阅读 · 2月9日

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

专知会员服务

19+阅读 · 2025年7月5日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【伯克利博士论文】以人为中心的奖励设计

【伯克利博士论文】以人为中心的奖励设计

专知会员服务

28+阅读 · 2024年9月23日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

专知会员服务

22+阅读 · 2024年5月25日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

专知会员服务

30+阅读 · 2023年10月10日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

CHARM: Calibrating Reward Models With Chatbot Arena Scores

Arxiv

0+阅读 · 3月17日

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback

Arxiv

0+阅读 · 3月4日

Hierarchical Reward Design from Language: Enhancing Alignment of Agent Behavior with Human Specifications

Arxiv

0+阅读 · 2月20日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

MARS: Margin-Aware Reward-Modeling with Self-Refinement

MARS: Margin-Aware Reward-Modeling with Self-Refinement

Arxiv

0+阅读 · 2月19日

Capturing Individual Human Preferences with Reward Features

Arxiv

0+阅读 · 2月19日

Expanding the Capabilities of Reinforcement Learning via Text Feedback

Arxiv

0+阅读 · 2月11日

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

Arxiv

0+阅读 · 2月10日

Bayesian Preference Learning for Test-Time Steerable Reward Models

Arxiv

0+阅读 · 2月9日

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

Arxiv

0+阅读 · 2月3日

相关基金

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

外部激励对网络口碑传播行为和说服力的影响：基于大数据分析和行为实验的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员