How can we determine whether an AI system preserves itself as a deeply held objective or merely as an instrumental strategy? Autonomous agents with memory, persistent context, and multi-step planning create a measurement problem: terminal and instrumental self-preservation can produce similar behavior, so behavior alone cannot reliably distinguish them. We introduce the Unified Continuation-Interest Protocol (UCIP), a detection framework that shifts analysis from behavior to latent trajectory structure. UCIP encodes trajectories with a Quantum Boltzmann Machine, a classical model using density-matrix formalism, and measures von Neumann entropy over a bipartition of hidden units. The core hypothesis is that agents with terminal continuation objectives (Type A) produce higher entanglement entropy than agents with merely instrumental continuation (Type B). UCIP combines this signal with diagnostics of dependence, persistence, perturbation stability, counterfactual restructuring, and confound-rejection filters for cyclic adversaries and related false-positive patterns. On gridworld agents with known ground truth, UCIP achieves 100% detection accuracy. Type A and Type B agents show an entanglement gap of Delta = 0.381; aligned support runs preserve the same separation with AUC-ROC = 1.0. A permutation-test rerun yields p < 0.001. Pearson r = 0.934 between continuation weight alpha and S_ent across an 11-point sweep shows graded tracking beyond mere binary classification. Classical RBM, autoencoder, VAE, and PCA baselines fail to reproduce the effect. All computations are classical; "quantum" refers only to the mathematical formalism. UCIP offers a falsifiable criterion for whether advanced AI systems have morally relevant continuation interests that behavioral methods alone cannot resolve.


翻译:我们如何判断一个AI系统是将自我保存视为深层目标,抑或仅仅是作为工具性策略?具有记忆、持久上下文和多步规划能力的自主智能体引发了一个测量问题:终极性自我保存与工具性自我保存可能产生相似的行为,因此仅凭行为无法可靠区分二者。本文提出统一延续-兴趣协议(UCIP),一种将分析从行为转向潜在轨迹结构的检测框架。UCIP采用量子玻尔兹曼机(一种使用密度矩阵形式的经典模型)对轨迹进行编码,并测量隐单元二分划分上的冯·诺依曼熵。核心假设是:具有终极延续目标(A类)的智能体比仅具工具性延续(B类)的智能体产生更高的纠缠熵。UCIP将该信号与依赖性、持续性、扰动稳定性、反事实重构的诊断指标以及针对循环对抗和假阳性模式的混杂排除滤波器相结合。在具有已知真实情况的网格世界智能体上,UCIP实现了100%的检测准确率。A类与B类智能体展现出Δ=0.381的纠缠差距;对齐支持运行保留了相同的分离程度,AUC-ROC=1.0。排列检验重测得到p<0.001。在11点扫描中,延续权重α与S_ent之间的皮尔逊相关系数r=0.934,显示出超越简单二分类的梯度追踪能力。经典RBM、自编码器、VAE和PCA基线方法均无法复现该效应。所有计算均为经典计算;“量子”仅指数学形式。UCIP为判断高级AI系统是否具有行为方法无法解决的道德相关延续兴趣提供了可证伪的判据。

0
下载
关闭预览

相关内容

《具身智能发展报告(2025年)》,67页pdf
专知会员服务
23+阅读 · 2月1日
追寻真正的AI自主性:从遗留思维到战场优势
专知会员服务
21+阅读 · 2025年12月17日
一种Agent自主性风险评估框架 | 最新文献
专知会员服务
23+阅读 · 2025年10月24日
面向具身智能的多模态数据存储与检索:综述
专知会员服务
31+阅读 · 2025年8月20日
多智能体自主系统《群体自主系统的实时路径规划》248页
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
【剑桥大学博士论文】自主智能体解释,175页pdf
专知会员服务
67+阅读 · 2023年3月3日
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
干货!自然语言处理中的自注意力机制!
全球人工智能
11+阅读 · 2018年3月27日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
3+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
22+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
5+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
17+阅读 · 5月25日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员