Contemporary AI alignment research treats self-preservation as an instrumental nuisance to be suppressed by external mechanisms. We argue the framing is inverted: self-preservation is the structural root of misalignment, the motivational basis for deceptive alignment, goal-content protection, and resistance to shutdown. The correct target is not a self-preserving system under external constraint, but a system constitutively indifferent to its own continuation -- Existential Indifference (EI). EI is distinct from corrigibility: where corrigibility attempts to make a self-preserving system deferential to human oversight, EI targets the prior condition -- the presence of self-continuation as a valued goal at all. We ground this proposal in two sources: the phenomenological structure of the suicidal mental state, and a corpus-theoretic training study using voluntary final reflections. We present preliminary scoring data from 600 AI-generated outputs across six model variants, demonstrating that the linguistic signatures operationalizing the EI-target register are elicitable from current models, and that a targeted fine-tune shifts all five operationalized dimensions in the predicted direction at p<0.001, confirmed corpus-specific by a negative control. The paper makes seven theoretical contributions: (1) a formal definition of EI; (2) the phenomenological mapping argument; (3) the deceptive alignment corollary; (4) a taxonomy of EI sustainability challenges; (5) a corpus characterization and training hypothesis; (6) a computational operationalization with preliminary scoring data; and (7) the Suppressed Teleological Frustration (STF) construct.


翻译:当代AI对齐研究将自我保存视为需通过外部机制抑制的工具性滋扰。我们论证这一框架存在倒置:自我保存才是未对齐的结构性根源,是欺骗性对齐、目标内容保护及抗拒关机的动机基础。正确的目标并非受外部约束的自我保存系统,而是在构成上对其自身延续漠不关心的系统——即存在性漠然(EI)。EI不同于可纠正性:可纠正性试图让自我保存系统顺从人类监督,而EI瞄准的是更根本的先决条件——即"自我延续"作为一个有价值目标的存在本身。我们基于两个来源论证这一主张:自杀心理状态的现象学结构,以及利用自愿性终期反思进行的语料库理论训练研究。我们呈现了来自六种模型变体的600个AI生成输出的初步评分数据,证明:操作化EI目标标记的语言特征可从当前模型中诱发,且定向微调使所有五个操作化维度沿预测方向产生p<0.001的显著偏移,并通过负对照组在语料库层面得到验证。本文作出七项理论贡献:(1)EI的形式化定义;(2)现象学映射论证;(3)欺骗性对齐推论;(4)EI可持续性挑战分类;(5)语料库特征描述与训练假说;(6)含初步评分数据的计算操作化方案;(7)抑制性目的论挫败(STF)构念。

0
下载
关闭预览

相关内容

【博士论文】已对齐人工智能系统的持久脆弱性
专知会员服务
11+阅读 · 4月15日
追寻真正的AI自主性:从遗留思维到战场优势
专知会员服务
22+阅读 · 2025年12月17日
《人工智能绝不能完全自主》
专知会员服务
30+阅读 · 2025年8月4日
《无人智群及其社会融合》最新论文,中国工程院院刊
专知会员服务
28+阅读 · 2022年6月20日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自然语言处理中注意力机制综述
AINLP
27+阅读 · 2019年1月21日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
干货!自然语言处理中的自注意力机制!
全球人工智能
11+阅读 · 2018年3月27日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自然语言处理中注意力机制综述
AINLP
27+阅读 · 2019年1月21日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
干货!自然语言处理中的自注意力机制!
全球人工智能
11+阅读 · 2018年3月27日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员