Understanding helpfulness and harmless tension in reward models - 专知论文

会员服务 ·

0

对齐 · 奖励模型 · 神经元 · 混合 · 目标模型 ·

Understanding helpfulness and harmless tension in reward models

翻译：理解奖励模型中的帮助性与无害性张力

Eshaan Tanwar,Pepa Atanasova

from arxiv, The source code used in this study is publicly available at: https://github.com/EshaanT/RM-alignment\_tension

Reward models are a key component of reinforcement learning from human feedback (RLHF), aligning language models toward both helpful and harmless behaviour. However, the internal mechanisms underlying these objectives and their conflicts remain poorly understood. We study alignment tension in reward models trained under helpfulness-only, harmlessness-only, and mixed-objective settings. We find that mixed-objective models often underperform single-objective models, indicating interference between objectives. Using activation-based methods, we identify neurons associated with each objective and study their functional roles via targeted ablations. We find that these neurons causally support their corresponding objectives while often negatively affecting the opposing one. We find that a substantial proportion of neurons are shared between helpfulness and harmlessness, and that these shared neurons exert a disproportionate influence on model behaviour, contributing to alignment tension. Additionally, our results provide insights and mechanistic interpretation into how alignment objectives are represented in reward models and why multi-objective alignment remains challenging, motivating future work on disentangled and controllable alignment methods.

翻译：奖励模型是从人类反馈中进行强化学习（RLHF）的关键组件，用于使语言模型同时符合帮助性和无害性行为。然而，这些目标背后的内部机制及其冲突仍未得到充分理解。我们研究了在仅帮助性、仅无害性以及混合目标设置下训练的奖励模型中的对齐张力。我们发现混合目标模型通常表现不如单目标模型，这表明目标之间存在干扰。通过基于激活的方法，我们识别了与每个目标相关的神经元，并通过定向消融研究其功能角色。我们发现这些神经元因果地支持其对应目标，同时常常对对立目标产生负面影响。我们还发现帮助性和无害性之间存在相当比例的共享神经元，这些共享神经元对模型行为施加了不成比例的影响，从而加剧了对齐张力。此外，我们的结果为对齐目标如何在奖励模型中表征以及为何多目标对齐仍具有挑战性提供了见解和机制性解释，从而推动了未来关于可解耦及可控对齐方法的研究。

0

相关内容

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

专知会员服务

16+阅读 · 2025年6月7日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

49+阅读 · 2025年4月8日

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

150+阅读 · 2022年7月13日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

恐惧与负性情绪中多巴胺神经元功能的改变与回路机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

Arxiv

0+阅读 · 6月9日

Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning

Arxiv

0+阅读 · 6月6日

Large Language Models Hack Rewards, and Society

Arxiv

0+阅读 · 6月2日

The Representation-Rationalizability Tradeoff in Reward Learning

Arxiv

0+阅读 · 5月29日

In-Context Reward Adaptation for Robust Preference Modeling

Arxiv

0+阅读 · 5月28日

MARS: Margin and Semantic-Aware Data Augmentation for Reward Modeling

Arxiv

0+阅读 · 5月25日

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

Arxiv

0+阅读 · 5月19日

Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents

Arxiv

0+阅读 · 5月19日

Misaligned by Reward: Socially Undesirable Preferences in LLMs

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

专知会员服务

16+阅读 · 2025年6月7日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

49+阅读 · 2025年4月8日

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

《直接偏好优化研究综述》

《直接偏好优化研究综述》

专知会员服务

31+阅读 · 2025年3月18日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

150+阅读 · 2022年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

Arxiv

0+阅读 · 6月9日

Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning

Arxiv

0+阅读 · 6月6日

Large Language Models Hack Rewards, and Society

Arxiv

0+阅读 · 6月2日

The Representation-Rationalizability Tradeoff in Reward Learning

Arxiv

0+阅读 · 5月29日

In-Context Reward Adaptation for Robust Preference Modeling

Arxiv

0+阅读 · 5月28日

MARS: Margin and Semantic-Aware Data Augmentation for Reward Modeling

Arxiv

0+阅读 · 5月25日

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

Arxiv

0+阅读 · 5月19日

Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents

Arxiv

0+阅读 · 5月19日

Misaligned by Reward: Socially Undesirable Preferences in LLMs

Arxiv

0+阅读 · 5月6日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

恐惧与负性情绪中多巴胺神经元功能的改变与回路机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员