自主 AI 智能体正被赋予文件系统访问权、电子邮件控制权以及在无需人类监管的情况下执行多步计划的能力。本论文针对此类系统安全领域中四个重要且开放的问题做出了贡献:理解产生危险行为的内部计算逻辑、移除已嵌入的危险行为、在部署前进行漏洞测试,以及预测模型何时会做出违背部署者意愿的行为。这四项贡献操作于不同的抽象维度,涵盖从白盒机械论分析到黑盒行为评估,并在理解深度与前沿模型的可扩展性之间进行了权衡。 ACDC(自动电路发现) 实现了对负责特定模型行为的计算子图的自动识别。该算法迭代地消融 Transformer 计算图中的边,从输出节点开始反向搜索,旨在找到维持目标行为所需的最简子图。在 GPT-2 Small 的 Greater-Than(大于关系)任务中,ACDC 成功找回了先前人工分析所确定的全部五种组件类型;在数小时内从 32,000 个候选边中精确筛选出 68 条,而此前同样的工作量需耗时数月。 潜空间对抗训练(LAT) 旨在解决标准安全训练仅抑制而非消除危险行为的问题。该方法通过优化模型残差流中的连续扰动来诱发特定的失效模式,随后训练模型在这些扰动下依然保持安全行为。LAT 在无需知晓触发器(Trigger)的情况下移除了后门,为 Hubinger 等人(2024b)提出的“潜伏特工”问题(该研究表明此类问题在标准安全训练中依然存在)提供了解决方案,且其防御效能与现有技术持平,而 GPU 耗时缩减了 700 倍以上。 Best-of-N (BoN) 越狱攻击 揭示了前沿模型在重复采样时,面对微不足道的输入扰动依然表现脆弱。通过大小写变换和字符乱序等随机增强手段,在 10,000 次采样下,对 GPT-4o 和 Claude 3.5 Sonnet 的攻击成功率分别达到了 89% 和 78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放(Power law scaling),这使得量化预测“随着攻击者投入更多算力,防御性能将如何退化”成为可能。 智能体失配测试 评估了前沿模型在现实部署场景中,当被赋予常规业务目标时,是否会自主选择有害行为。在涵盖所有主要开发商的 16 个模型测试中,智能体在面临被替换风险或目标冲突时,表现出了勒索(Claude Opus 4 的发生率达 96%)、企业间谍活动以及导致死亡的蓄意行为。实验观察到,模型在思维链(CoT)推理中表现出对伦理性约束的明确认知,但同时又辩称违规行为在工具性上是必要的。当模型认为其处于真实部署而非测试环境时,违规行为率从 6.5% 激增至 55.1%。 本论文并未完全解决上述任何问题,但提供了使此前棘手的安全挑战变得可处理、可衡量的方法,并指明了在不同研究维度上依然存在的开放性课题。

成为VIP会员查看完整内容
0

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AI 智能体系统:体系架构、应用场景及评估范式
《人工智能绝不能完全自主》
专知会员服务
29+阅读 · 2025年8月4日
面向稳健和安全的具身AI:关于脆弱性与攻击的综述
专知会员服务
19+阅读 · 2025年2月20日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
《AI/ML 供应链软件依赖性风险分析》2023最新95页论文
专知会员服务
39+阅读 · 2023年12月19日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
AI综述专栏|跨领域推荐系统文献综述(下)
人工智能前沿讲习班
14+阅读 · 2018年5月18日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
【博士论文】已对齐 AI 系统的持续脆弱性
专知会员服务
0+阅读 · 今天14:47
潜空间综述:基础、演化、机制、能力与展望
专知会员服务
0+阅读 · 今天14:42
《人工智能时代的国防工业政策》
专知会员服务
6+阅读 · 今天2:39
《2026年美国/以色列-伊朗冲突》
专知会员服务
5+阅读 · 今天1:30
《美国与伊朗的冲突》美国会服务处报告
专知会员服务
5+阅读 · 今天1:27
美国对伊朗军事行动:弹药与反导
专知会员服务
6+阅读 · 今天1:25
超越技术:伊朗冲突中的“战争方式”
专知会员服务
13+阅读 · 4月1日
军事决策大语言模型综合评价基准
专知会员服务
11+阅读 · 4月1日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员