I argue that content-based AI value alignment--any approach that treats alignment as optimizing toward a formal value-object (reward function, utility function, constitutional principles, or learned preference representation)--cannot, by itself, produce robust alignment under capability scaling, distributional shift, and increasing autonomy. This limitation arises from three philosophical results: Hume's is-ought gap (behavioral data cannot entail normative conclusions), Berlin's value pluralism (human values are irreducibly plural and incommensurable), and the extended frame problem (any value encoding will misfit future contexts that advanced AI creates). I show that RLHF, Constitutional AI, inverse reinforcement learning, and cooperative assistance games each instantiate this specification trap, and that their failure modes are structural, not engineering limitations. Proposed escape routes--continual updating, meta-preferences, moral realism--relocate the trap rather than exit it. Drawing on Fischer and Ravizza's compatibilist theory, I argue that behavioral compliance does not constitute alignment: there is a principled distinction between simulated value-following and genuine reasons-responsiveness, and specification-based methods cannot produce the latter. The specification trap establishes a ceiling on content-based approaches, not their uselessness--but this ceiling becomes safety-critical at the capability frontier. The alignment problem must be reframed from value specification to value emergence.


翻译:我认为,基于内容的AI价值对齐——任何将对齐视为向形式价值目标(奖励函数、效用函数、宪法原则或习得的偏好表征)优化的方法——本身无法在能力扩展、分布偏移和自主性增强的条件下实现稳健对齐。这一局限性源于三个哲学结果:休谟的实然-应然鸿沟(行为数据无法推导出规范性结论)、柏林的多元价值论(人类价值具有不可简化的多元性与不可通约性),以及扩展框架问题(任何价值编码都将无法适应先进AI所创造的未来情境)。我证明,RLHF、宪法AI、逆强化学习和协作辅助博弈均实例化了这一规范陷阱,且它们的失效模式是结构性的,而非工程局限。提出的解决路径——持续更新、元偏好、道德实在论——仅转移了陷阱而非真正摆脱。借鉴费舍尔和拉维扎的相容论理论,我认为行为合规并不构成对齐:模拟价值遵循与真正的理性响应之间存在原则性区别,而基于规范的方法无法产生后者。规范陷阱为基于内容的方法设定了上限,而非否定其效用——但在能力前沿领域,这一上限将变得至关重要。必须将对齐问题从价值规范重构为价值涌现。

0
下载
关闭预览

相关内容

大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
112页《人工智能对齐:全面性综述》中文版
专知会员服务
159+阅读 · 2024年2月1日
为什么说深耕AI领域绕不开知识图谱?
人工智能学家
33+阅读 · 2019年5月30日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员