Static content-based AI value alignment is insufficient for robust alignment under capability scaling, distributional shift, and increasing autonomy. This holds for any approach that treats alignment as optimizing toward a fixed formal value-object, whether reward function, utility function, constitutional principles, or learned preference representation. Three philosophical results create compounding difficulties: Hume's is-ought gap (behavioral data underdetermines normative content), Berlin's value pluralism (human values resist consistent formalization), and the extended frame problem (any value encoding will misfit future contexts that advanced AI creates). RLHF, Constitutional AI, inverse reinforcement learning, and cooperative assistance games each instantiate this specification trap, and their failure modes reflect structural vulnerabilities, not merely engineering limitations that better data or algorithms will straightforwardly resolve. Known workarounds for individual components face mutually reinforcing difficulties when the specification is closed: the moment it ceases to update from the process it governs. Drawing on compatibilist philosophy, the paper argues that behavioral compliance under training conditions does not guarantee robust alignment under novel conditions, and that this gap grows with system capability. For value-laden autonomous systems, known closed approaches face structural vulnerabilities that worsen with capability. The constructive burden shifts to open, developmentally responsive approaches, though whether such approaches can be achieved remains an empirical question.


翻译:基于静态内容的AI价值对齐,在能力扩展、分布偏移和自主性提升的背景下,不足以实现鲁棒对齐。这一结论适用于任何将对齐视为优化固定形式化价值对象的方法,无论该对象是奖励函数、效用函数、宪法原则,还是习得的偏好表征。三个哲学结果共同构成了叠加性困境:休谟的"实然-应然"鸿沟(行为数据无法充分确定规范性内容)、伯林的价值多元论(人类价值难以实现一致的形式化),以及扩展的框架问题(任何价值编码都将与高级AI创造的未来情境不匹配)。RLHF、宪法AI、逆强化学习和协作辅助游戏均实例化了这一规范陷阱,其失败模式反映了结构性脆弱性,而非单纯通过更好的数据或算法即可解决的工程限制。已知针对各组成部分的变通方案,在规范封闭时面临相互强化的困境:一旦其不再受所治理过程的更新影响。基于相容论哲学,本文认为训练条件下的行为合规性,并不能保证新环境下的鲁棒对齐,且这一差距随着系统能力的提升而扩大。对于承载价值判断的自主系统,现有封闭方法存在随能力增强而恶化的结构性脆弱性。建设性责任因而转向开放式的、发展响应的路径——尽管此类路径是否可行仍有待实证检验。

0
下载
关闭预览

相关内容

大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
「实体对齐」最新2022综述
专知
13+阅读 · 2022年3月17日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员