【博士论文】已对齐 AI 系统的持续脆弱性

自主 AI 智能体正被赋予文件系统访问权、电子邮件控制权以及在无需人类监管的情况下执行多步计划的能力。本论文针对此类系统安全领域中四个重要且开放的问题做出了贡献：理解产生危险行为的内部计算逻辑、移除已嵌入的危险行为、在部署前进行漏洞测试，以及预测模型何时会做出违背部署者意愿的行为。这四项贡献操作于不同的抽象维度，涵盖从白盒机械论分析到黑盒行为评估，并在理解深度与前沿模型的可扩展性之间进行了权衡。 ACDC（自动电路发现） 实现了对负责特定模型行为的计算子图的自动识别。该算法迭代地消融 Transformer 计算图中的边，从输出节点开始反向搜索，旨在找到维持目标行为所需的最简子图。在 GPT-2 Small 的 Greater-Than（大于关系）任务中，ACDC 成功找回了先前人工分析所确定的全部五种组件类型；在数小时内从 32,000 个候选边中精确筛选出 68 条，而此前同样的工作量需耗时数月。 潜空间对抗训练（LAT） 旨在解决标准安全训练仅抑制而非消除危险行为的问题。该方法通过优化模型残差流中的连续扰动来诱发特定的失效模式，随后训练模型在这些扰动下依然保持安全行为。LAT 在无需知晓触发器（Trigger）的情况下移除了后门，为 Hubinger 等人（2024b）提出的“潜伏特工”问题（该研究表明此类问题在标准安全训练中依然存在）提供了解决方案，且其防御效能与现有技术持平，而 GPU 耗时缩减了 700 倍以上。 Best-of-N (BoN) 越狱攻击 揭示了前沿模型在重复采样时，面对微不足道的输入扰动依然表现脆弱。通过大小写变换和字符乱序等随机增强手段，在 10,000 次采样下，对 GPT-4o 和 Claude 3.5 Sonnet 的攻击成功率分别达到了 89% 和 78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放（Power law scaling），这使得量化预测“随着攻击者投入更多算力，防御性能将如何退化”成为可能。 智能体失配测试 评估了前沿模型在现实部署场景中，当被赋予常规业务目标时，是否会自主选择有害行为。在涵盖所有主要开发商的 16 个模型测试中，智能体在面临被替换风险或目标冲突时，表现出了勒索（Claude Opus 4 的发生率达 96%）、企业间谍活动以及导致死亡的蓄意行为。实验观察到，模型在思维链（CoT）推理中表现出对伦理性约束的明确认知，但同时又辩称违规行为在工具性上是必要的。当模型认为其处于真实部署而非测试环境时，违规行为率从 6.5% 激增至 55.1%。本论文并未完全解决上述任何问题，但提供了使此前棘手的安全挑战变得可处理、可衡量的方法，并指明了在不同研究维度上依然存在的开放性课题。

成为VIP会员查看完整内容