Static content-based AI value alignment is insufficient for robust alignment under capability scaling, distributional shift, and increasing autonomy. This holds for any approach that treats alignment as optimizing toward a fixed formal value-object, whether reward function, utility function, constitutional principles, or learned preference representation. Three philosophical results create compounding difficulties: Hume's is-ought gap (behavioral data underdetermines normative content), Berlin's value pluralism (human values resist consistent formalization), and the extended frame problem (any value encoding will misfit future contexts that advanced AI creates). RLHF, Constitutional AI, inverse reinforcement learning, and cooperative assistance games each instantiate this specification trap, and their failure modes reflect structural vulnerabilities, not merely engineering limitations that better data or algorithms will straightforwardly resolve. Known workarounds for individual components face mutually reinforcing difficulties when the specification is closed: the moment it ceases to update from the process it governs. Drawing on compatibilist philosophy, the paper argues that behavioral compliance under training conditions does not guarantee robust alignment under novel conditions, and that this gap grows with system capability. For value-laden autonomous systems, known closed approaches face structural vulnerabilities that worsen with capability. The constructive burden shifts to open, developmentally responsive approaches, though whether such approaches can be achieved remains an empirical question.


翻译:静态、基于内容的AI价值对齐方法在面对能力扩展、分布偏移与自主性提升时,不足以实现稳健对齐。这一论断适用于任何将对齐视为针对固定形式化价值对象(无论是奖励函数、效用函数、宪法原则还是习得的偏好表征)进行优化的方法。三个哲学结论共同构成了叠加性困境:休谟的实然-应然鸿沟(行为数据无法充分确定规范性内容)、柏林的价值多元论(人类价值观难以实现一致的形式化),以及扩展的框架问题(任何价值编码在高级AI创造的新情境中都会出现不匹配)。RLHF、宪法AI、逆强化学习与合作性辅助博弈皆实例化了这一规范陷阱,其失效模式反映的是结构性脆弱性,而非单纯可通过更优数据或算法直接解决的工程局限。当规范被封闭——即它不再根据其所治理的过程进行更新时——针对各单一组件的已知应对方案将面临相互强化的困境。本文借鉴相容论哲学,论证了训练条件下的行为合规性并不能保证新异条件下的稳健对齐,且这一差距会随系统能力增长而扩大。对于承载价值的自主系统而言,现有的封闭式方法存在随能力增强而加剧的结构性脆弱性。建设性任务由此转向开放式的、具有发展响应性的方法,尽管此类方法能否实现仍是一个经验性问题。

0
下载
关闭预览

相关内容

《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
112页《人工智能对齐:全面性综述》中文版
专知会员服务
159+阅读 · 2024年2月1日
「实体对齐」最新2022综述
专知
13+阅读 · 2022年3月17日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员