Recent empirical results have demonstrated that training large language models (LLMs) with negative-only feedback can match or exceed standard reinforcement learning from human feedback (RLHF). Negative Sample Reinforcement achieves parity with PPO on mathematical reasoning; Distributional Dispreference Optimization trains effectively using only dispreferred samples; and Constitutional AI outperforms pure RLHF on harmlessness benchmarks. Yet no unified theoretical account explains why negative signals are so effective. This paper proposes such an account: positive preferences and negative constraints are structurally asymmetric. Positive preferences ("which is better") encode continuously coupled, context-dependent human values that cannot be exhaustively specified -- leading models to learn surface correlates such as agreement with the user (sycophancy). Negative constraints ("what is wrong") encode discrete, finite, independently verifiable prohibitions that can converge to a stable boundary. This asymmetry -- rooted in Popper's falsification logic and the epistemology of negative knowledge -- explains both the sycophancy failure of preference-based RLHF and the surprising effectiveness of negative-signal methods. We argue that alignment research should shift its center of gravity from "learning what humans prefer" to "learning what humans reject," and offer testable predictions for this framework.


翻译:最近的实证研究表明,仅使用负面反馈训练大型语言模型(LLMs)可以达到甚至超越基于人类反馈的强化学习(RLHF)标准方法的效果。负面样本强化学习在数学推理任务上达到与PPO相当的水平;分布性非偏好优化仅使用非偏好样本即可有效训练;宪法AI在无害性基准测试中优于纯RLHF方法。然而,目前尚缺乏统一的理论解释为何负面信号如此有效。本文提出一个理论框架:正面偏好与负面约束在结构上具有不对称性。正面偏好("哪个更好")编码了连续耦合、依赖语境且无法穷尽描述的人类价值观——这导致模型学习到诸如迎合用户(谄媚性)等表面关联特征。负面约束("什么是错误的")则编码了离散、有限且可独立验证的禁令,能够收敛到稳定边界。这种不对称性——其根源可追溯至波普尔的证伪逻辑与负面知识认识论——既解释了基于偏好的RLHF产生谄媚性缺陷的原因,也揭示了负面信号方法惊人有效性的内在机制。我们认为,对齐研究的重心应从"学习人类偏好什么"转向"学习人类拒绝什么",并为此框架提供了可检验的预测。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
直接偏好优化中的数据集、理论、变体和应用的综合综述
专知会员服务
15+阅读 · 2024年10月24日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 25分钟前
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 21分钟前
全球高超音速武器最新发展趋势
专知会员服务
0+阅读 · 50分钟前
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员