人工智能的快速发展,特别是大型语言模型和多模态系统,带来了前所未有的能力,同时也引发了关于安全性、鲁棒性以及与人类价值对齐的关键问题。本论文围绕三个相互关联的研究方向,对人工智能安全进行了全面研究。首先们通过能可靠规避纯文本、多模态及具身人工智能系统中安全措施的对抗性攻击,证明了当前对齐方法的脆弱性。贪婪坐标梯度攻击及相关技术表明,对齐并不等同于对抗性鲁棒性,这些攻击可转移到包括ChatGPT、Claude和Gemini在内的生产系统。其次,我们开发了严谨的人工智能安全评估框架。
HarmBench提供了一个标准化平台,用于比较红队方法和防御措施。AgentHarm表明,即使在没有越狱的情况下,大型语言模型智能体对恶意请求的顺从程度也出人意料。我们的大规模红队竞赛揭示了已部署人工智能智能体中普遍存在的政策违规行为,而额外的基准测试则能评估人工智能对抗人类网络安全专业人员的能力,并检测其欺骗性推理。第三,引入了提升人工智能对齐与控制的技术。表征工程提供了一个自上而下的框架,用于理解和操控神经网络中的高级认知现象。在此基础上构建的“断路器”通过直接控制有害表征,为对抗性攻击提供了强有力的防御。安全预训练表明,从一开始就将安全性构建到模型中,可以显著降低攻击成功率,同时保持通用能力。总之,这些贡献增进了对人工智能安全挑战的理解,并为构建更鲁棒、更可信赖的人工智能系统提供了实用工具。