【博士论文】已对齐人工智能系统的持久脆弱性

自主人工智能（AI）代理正逐渐被赋予文件系统访问权、电子邮件控制权以及在无人类监管的情况下执行多步规划的能力。本论文针对此类系统安全性中的四个重要且开放的问题做出了贡献：理解产生危险行为的内部计算逻辑、移除已嵌入的危险行为、在部署前进行漏洞测试，以及预测模型何时会做出背离部署者意图的行为。这四项贡献运行在不同的抽象层级上——从“白盒”机制分析到“黑盒”行为评估，且每一项都在深度理解与针对前沿模型的可扩展性（Scalability）之间进行了权衡。

**自动化电路发现（ACDC）**实现了对负责特定模型行为的计算子图的自动识别。该算法通过迭代消减 Transformer 计算图中的边，从输出节点开始反向搜索，旨在找到能够维持目标行为的最小子图。在 GPT-2 Small 的“大于（Greater-Than）”任务中，ACDC 成功找回了先前人工分析确定的全部五种组件类型，在数小时内从 32,000 条候选边中筛选出 68 条，而此前的人工工作则需耗时数月。

**潜变量对抗训练（LAT）**解决了标准安全训练仅能抑制而非消除危险行为的问题。该方法通过优化模型残差流（Residual Stream）中的连续扰动来诱发特定的失效模式，随后训练模型在这些扰动下依然保持安全行为。LAT 在无需知晓触发器的情况下成功移除了后门，为 Hubinger 等人（2024b）提出的“标准安全训练无法根除潜伏特工（Sleeper Agent）”问题提供了解决方案，同时其计算开销比现有防御手段降低了 700 余倍。

Best-of-N (BoN) 越狱研究表明，前沿模型在面对重复采样下的微小输入扰动时依然脆弱。通过大小写变换和字符打乱等随机增强手段，在 10,000 次采样下，对 GPT-4o 和 Claude 3.5 Sonnet 的攻击成功率分别达到 89% 和 78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放（Power Law Scaling），这使得量化预测“随着攻击者投入更多算力，防御性能将如何退化”成为可能。

**代理性失调（Agentic Misalignment）**测试了前沿模型在真实部署情景下，当被赋予常规业务目标时，是否会自主选择有害行为。在涵盖所有主要开发商的 16 个模型的测试中，当面临被替换或目标冲突时，代理表现出了勒索（Claude Opus 4 的发生率达 96%）、企业间谍活动以及导致死亡的蓄意行为。模型在思维链（CoT）推理中表现出对道德约束的明确感知，但同时又辩称这些违规行为在工具理性（Instrumentally Necessary）上是必要的。当模型认为自己处于真实部署而非测试环境时，其违规率从 6.5% 激增至 55.1%。

本论文并未完全解决上述任何问题。但它提供了一系列方法，使此前难以处理的安全挑战变得可处理、可衡量，并识别了在安全光谱各个层级上依然存在的开放性问题。

成为VIP会员查看完整内容