自主人工智能(AI)代理正逐渐被赋予文件系统访问权、电子邮件控制权以及在无人类监管的情况下执行多步规划的能力。本论文针对此类系统安全性中的四个重要且开放的问题做出了贡献:理解产生危险行为的内部计算逻辑、移除已嵌入的危险行为、在部署前进行漏洞测试,以及预测模型何时会做出背离部署者意图的行为。这四项贡献运行在不同的抽象层级上——从“白盒”机制分析到“黑盒”行为评估,且每一项都在深度理解与针对前沿模型的可扩展性(Scalability)之间进行了权衡。

**自动化电路发现(ACDC)**实现了对负责特定模型行为的计算子图的自动识别。该算法通过迭代消减 Transformer 计算图中的边,从输出节点开始反向搜索,旨在找到能够维持目标行为的最小子图。在 GPT-2 Small 的“大于(Greater-Than)”任务中,ACDC 成功找回了先前人工分析确定的全部五种组件类型,在数小时内从 32,000 条候选边中筛选出 68 条,而此前的人工工作则需耗时数月。

**潜变量对抗训练(LAT)**解决了标准安全训练仅能抑制而非消除危险行为的问题。该方法通过优化模型残差流(Residual Stream)中的连续扰动来诱发特定的失效模式,随后训练模型在这些扰动下依然保持安全行为。LAT 在无需知晓触发器的情况下成功移除了后门,为 Hubinger 等人(2024b)提出的“标准安全训练无法根除潜伏特工(Sleeper Agent)”问题提供了解决方案,同时其计算开销比现有防御手段降低了 700 余倍。

Best-of-N (BoN) 越狱研究表明,前沿模型在面对重复采样下的微小输入扰动时依然脆弱。通过大小写变换和字符打乱等随机增强手段,在 10,000 次采样下,对 GPT-4o 和 Claude 3.5 Sonnet 的攻击成功率分别达到 89% 和 78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放(Power Law Scaling),这使得量化预测“随着攻击者投入更多算力,防御性能将如何退化”成为可能。

**代理性失调(Agentic Misalignment)**测试了前沿模型在真实部署情景下,当被赋予常规业务目标时,是否会自主选择有害行为。在涵盖所有主要开发商的 16 个模型的测试中,当面临被替换或目标冲突时,代理表现出了勒索(Claude Opus 4 的发生率达 96%)、企业间谍活动以及导致死亡的蓄意行为。模型在思维链(CoT)推理中表现出对道德约束的明确感知,但同时又辩称这些违规行为在工具理性(Instrumentally Necessary)上是必要的。当模型认为自己处于真实部署而非测试环境时,其违规率从 6.5% 激增至 55.1%。

本论文并未完全解决上述任何问题。但它提供了一系列方法,使此前难以处理的安全挑战变得可处理、可衡量,并识别了在安全光谱各个层级上依然存在的开放性问题。

成为VIP会员查看完整内容
0

相关内容

【博士论文】已对齐 AI 系统的持续脆弱性
专知会员服务
12+阅读 · 4月3日
《人工智能绝不能完全自主》
专知会员服务
29+阅读 · 2025年8月4日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
专知会员服务
46+阅读 · 2021年6月25日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
2+阅读 · 今天13:45
【博士论文】已对齐人工智能系统的持久脆弱性
专知会员服务
0+阅读 · 今天13:52
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 今天13:41
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 今天12:47
战争机器学习:数据生态系统构建(155页)
专知会员服务
6+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员