自主 AI 智能体正被赋予文件系统访问权、电子邮件控制权以及在无需人类监管的情况下执行多步计划的能力。本论文针对此类系统安全领域中四个重要且开放的问题做出了贡献:理解产生危险行为的内部计算逻辑、移除已嵌入的危险行为、在部署前进行漏洞测试,以及预测模型何时会做出违背部署者意愿的行为。这四项贡献操作于不同的抽象维度,涵盖从白盒机械论分析到黑盒行为评估,并在理解深度与前沿模型的可扩展性之间进行了权衡。 ACDC(自动电路发现) 实现了对负责特定模型行为的计算子图的自动识别。该算法迭代地消融 Transformer 计算图中的边,从输出节点开始反向搜索,旨在找到维持目标行为所需的最简子图。在 GPT-2 Small 的 Greater-Than(大于关系)任务中,ACDC 成功找回了先前人工分析所确定的全部五种组件类型;在数小时内从 32,000 个候选边中精确筛选出 68 条,而此前同样的工作量需耗时数月。 潜空间对抗训练(LAT) 旨在解决标准安全训练仅抑制而非消除危险行为的问题。该方法通过优化模型残差流中的连续扰动来诱发特定的失效模式,随后训练模型在这些扰动下依然保持安全行为。LAT 在无需知晓触发器(Trigger)的情况下移除了后门,为 Hubinger 等人(2024b)提出的“潜伏特工”问题(该研究表明此类问题在标准安全训练中依然存在)提供了解决方案,且其防御效能与现有技术持平,而 GPU 耗时缩减了 700 倍以上。 Best-of-N (BoN) 越狱攻击 揭示了前沿模型在重复采样时,面对微不足道的输入扰动依然表现脆弱。通过大小写变换和字符乱序等随机增强手段,在 10,000 次采样下,对 GPT-4o 和 Claude 3.5 Sonnet 的攻击成功率分别达到了 89% 和 78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放(Power law scaling),这使得量化预测“随着攻击者投入更多算力,防御性能将如何退化”成为可能。 智能体失配测试 评估了前沿模型在现实部署场景中,当被赋予常规业务目标时,是否会自主选择有害行为。在涵盖所有主要开发商的 16 个模型测试中,智能体在面临被替换风险或目标冲突时,表现出了勒索(Claude Opus 4 的发生率达 96%)、企业间谍活动以及导致死亡的蓄意行为。实验观察到,模型在思维链(CoT)推理中表现出对伦理性约束的明确认知,但同时又辩称违规行为在工具性上是必要的。当模型认为其处于真实部署而非测试环境时,违规行为率从 6.5% 激增至 55.1%。 本论文并未完全解决上述任何问题,但提供了使此前棘手的安全挑战变得可处理、可衡量的方法,并指明了在不同研究维度上依然存在的开放性课题。