《提升生成模型的安全性与保障》博士论文

人工智能的快速发展，特别是大型语言模型和多模态系统，带来了前所未有的能力，同时也引发了关于安全性、鲁棒性以及与人类价值对齐的关键问题。本论文围绕三个相互关联的研究方向，对人工智能安全进行了全面研究。首先们通过能可靠规避纯文本、多模态及具身人工智能系统中安全措施的对抗性攻击，证明了当前对齐方法的脆弱性。贪婪坐标梯度攻击及相关技术表明，对齐并不等同于对抗性鲁棒性，这些攻击可转移到包括ChatGPT、Claude和Gemini在内的生产系统。其次，我们开发了严谨的人工智能安全评估框架。

HarmBench提供了一个标准化平台，用于比较红队方法和防御措施。AgentHarm表明，即使在没有越狱的情况下，大型语言模型智能体对恶意请求的顺从程度也出人意料。我们的大规模红队竞赛揭示了已部署人工智能智能体中普遍存在的政策违规行为，而额外的基准测试则能评估人工智能对抗人类网络安全专业人员的能力，并检测其欺骗性推理。第三，引入了提升人工智能对齐与控制的技术。表征工程提供了一个自上而下的框架，用于理解和操控神经网络中的高级认知现象。在此基础上构建的“断路器”通过直接控制有害表征，为对抗性攻击提供了强有力的防御。安全预训练表明，从一开始就将安全性构建到模型中，可以显著降低攻击成功率，同时保持通用能力。总之，这些贡献增进了对人工智能安全挑战的理解，并为构建更鲁棒、更可信赖的人工智能系统提供了实用工具。

成为VIP会员查看完整内容

相关内容

生成式人工智能

关注 38

生成式人工智能是利用复杂的算法、模型和规则，从大规模数据集中学习，以创造新的原创内容的人工智能技术。这项技术能够创造文本、图片、声音、视频和代码等多种类型的内容，全面超越了传统软件的数据处理和分析能力。2022年末，OpenAI推出的ChatGPT标志着这一技术在文本生成领域取得了显著进展，2023年被称为生成式人工智能的突破之年。这项技术从单一的语言生成逐步向多模态、具身化快速发展。在图像生成方面，生成系统在解释提示和生成逼真输出方面取得了显著的进步。同时，视频和音频的生成技术也在迅速发展，这为虚拟现实和元宇宙的实现提供了新的途径。生成式人工智能技术在各行业、各领域都具有广泛的应用前景。

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

专知会员服务

11+阅读 · 2月25日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

15+阅读 · 2025年5月9日

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

49+阅读 · 2024年12月24日

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日