人工智能的快速发展,特别是大型语言模型和多模态系统,带来了前所未有的能力,同时也引发了关于安全性、鲁棒性以及与人类价值对齐的关键问题。本论文围绕三个相互关联的研究方向,对人工智能安全进行了全面研究。首先们通过能可靠规避纯文本、多模态及具身人工智能系统中安全措施的对抗性攻击,证明了当前对齐方法的脆弱性。贪婪坐标梯度攻击及相关技术表明,对齐并不等同于对抗性鲁棒性,这些攻击可转移到包括ChatGPT、Claude和Gemini在内的生产系统。其次,我们开发了严谨的人工智能安全评估框架。

HarmBench提供了一个标准化平台,用于比较红队方法和防御措施。AgentHarm表明,即使在没有越狱的情况下,大型语言模型智能体对恶意请求的顺从程度也出人意料。我们的大规模红队竞赛揭示了已部署人工智能智能体中普遍存在的政策违规行为,而额外的基准测试则能评估人工智能对抗人类网络安全专业人员的能力,并检测其欺骗性推理。第三,引入了提升人工智能对齐与控制的技术。表征工程提供了一个自上而下的框架,用于理解和操控神经网络中的高级认知现象。在此基础上构建的“断路器”通过直接控制有害表征,为对抗性攻击提供了强有力的防御。安全预训练表明,从一开始就将安全性构建到模型中,可以显著降低攻击成功率,同时保持通用能力。总之,这些贡献增进了对人工智能安全挑战的理解,并为构建更鲁棒、更可信赖的人工智能系统提供了实用工具。

成为VIP会员查看完整内容
5

相关内容

生成式人工智能是利用复杂的算法、模型和规则,从大规模数据集中学习,以创造新的原创内容的人工智能技术。这项技术能够创造文本、图片、声音、视频和代码等多种类型的内容,全面超越了传统软件的数据处理和分析能力。2022年末,OpenAI推出的ChatGPT标志着这一技术在文本生成领域取得了显著进展,2023年被称为生成式人工智能的突破之年。这项技术从单一的语言生成逐步向多模态、具身化快速发展。在图像生成方面,生成系统在解释提示和生成逼真输出方面取得了显著的进步。同时,视频和音频的生成技术也在迅速发展,这为虚拟现实和元宇宙的实现提供了新的途径。生成式人工智能技术在各行业、各领域都具有广泛的应用前景。
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
49+阅读 · 2024年12月24日
深度学习模型安全:威胁与防御,176页pdf
专知会员服务
28+阅读 · 2024年12月13日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
多视角看大模型安全及实践
专知会员服务
70+阅读 · 2024年4月1日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
51+阅读 · 2024年1月2日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
5+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
2+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员