Reinforcement Learning from Human Feedback (RLHF) assumes that annotation responses reflect genuine human preferences. They often do not. Behavioral scientists have documented for sixty years that people produce responses without holding genuine opinions, construct preferences on the spot from contextual cues, and interpret identical questions differently. Importantly, these failures are common for the judgments on values that matter most for AI alignment. We argue that measurement validity is logically prior to preference aggregation. Before asking how to combine annotations, the field must ask whether the responses being combined are preferences at all. We organize annotation responses along a spectrum, from non-attitudes (no signal) to genuine preferences (full signal), and develop diagnostics that locate responses on this spectrum. In two RLHF datasets, we show that inconsistency is systematic and directionally biased. Filtering high-inconsistency annotators flips majority harm classifications for 18.6% of prompts and shifts mean ratings by over 13 points on a 100-point scale. As such, much of the current RLHF practice models noise as signal and elicitation artifacts as human values.


翻译:从人类反馈中强化学习假设标注回应能反映真实的人类偏好,但事实往往并非如此。行为科学家六十年来已记录到:人们会在没有真实意见时做出回应,从情境线索中临时构建偏好,并对相同问题给出不同解读。重要的是,这些失误普遍存在于对人工智能对齐至关重要的价值判断中。我们认为测量有效性在逻辑上优先于偏好聚合。在探讨如何融合标注之前,学界必须首先确认所融合的回应究竟是否为偏好。我们将标注回应组织为一个从"无态度"(无信号)到"真实偏好"(全信号)的频谱,并开发出可定位回应在该频谱位置的诊断方法。在两个RLHF数据集中,我们证明不一致性具有系统性和方向性偏差。过滤高度不一致的标注者后,18.6%的提示中多数危害分类发生翻转,平均评分在100分量表上偏移超过13分。由此可见,当前RLHF实践在很大程度上将噪声建模为信号,将诱发伪迹当成人类价值。

0
下载
关闭预览

相关内容

直接偏好优化:一种新的RLHF方法,87页ppt
专知会员服务
43+阅读 · 2024年6月10日
【NeurIPS2023】直接偏好优化,代替RLHF
专知会员服务
44+阅读 · 2024年1月7日
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
15+阅读 · 2022年7月7日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
GraphSAGE:我寻思GCN也没我牛逼
极市平台
12+阅读 · 2019年8月12日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员