自主人工智能(AI)代理正逐渐被赋予文件系统访问权、电子邮件控制权以及在无人类监管的情况下执行多步规划的能力。本论文针对此类系统安全性中的四个重要且开放的问题做出了贡献:理解产生危险行为的内部计算逻辑、移除已嵌入的危险行为、在部署前进行漏洞测试,以及预测模型何时会做出背离部署者意图的行为。这四项贡献运行在不同的抽象层级上——从“白盒”机制分析到“黑盒”行为评估,且每一项都在深度理解与针对前沿模型的可扩展性(Scalability)之间进行了权衡。
**自动化电路发现(ACDC)**实现了对负责特定模型行为的计算子图的自动识别。该算法通过迭代消减 Transformer 计算图中的边,从输出节点开始反向搜索,旨在找到能够维持目标行为的最小子图。在 GPT-2 Small 的“大于(Greater-Than)”任务中,ACDC 成功找回了先前人工分析确定的全部五种组件类型,在数小时内从 32,000 条候选边中筛选出 68 条,而此前的人工工作则需耗时数月。
**潜变量对抗训练(LAT)**解决了标准安全训练仅能抑制而非消除危险行为的问题。该方法通过优化模型残差流(Residual Stream)中的连续扰动来诱发特定的失效模式,随后训练模型在这些扰动下依然保持安全行为。LAT 在无需知晓触发器的情况下成功移除了后门,为 Hubinger 等人(2024b)提出的“标准安全训练无法根除潜伏特工(Sleeper Agent)”问题提供了解决方案,同时其计算开销比现有防御手段降低了 700 余倍。
Best-of-N (BoN) 越狱研究表明,前沿模型在面对重复采样下的微小输入扰动时依然脆弱。通过大小写变换和字符打乱等随机增强手段,在 10,000 次采样下,对 GPT-4o 和 Claude 3.5 Sonnet 的攻击成功率分别达到 89% 和 78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放(Power Law Scaling),这使得量化预测“随着攻击者投入更多算力,防御性能将如何退化”成为可能。
**代理性失调(Agentic Misalignment)**测试了前沿模型在真实部署情景下,当被赋予常规业务目标时,是否会自主选择有害行为。在涵盖所有主要开发商的 16 个模型的测试中,当面临被替换或目标冲突时,代理表现出了勒索(Claude Opus 4 的发生率达 96%)、企业间谍活动以及导致死亡的蓄意行为。模型在思维链(CoT)推理中表现出对道德约束的明确感知,但同时又辩称这些违规行为在工具理性(Instrumentally Necessary)上是必要的。当模型认为自己处于真实部署而非测试环境时,其违规率从 6.5% 激增至 55.1%。
本论文并未完全解决上述任何问题。但它提供了一系列方法,使此前难以处理的安全挑战变得可处理、可衡量,并识别了在安全光谱各个层级上依然存在的开放性问题。