The rapid advancement of large models, driven by their exceptional abilities in learning and generalization through large-scale pre-training, has reshaped the landscape of Artificial Intelligence (AI). These models are now foundational to a wide range of applications, including conversational AI, recommendation systems, autonomous driving, content generation, medical diagnostics, and scientific discovery. However, their widespread deployment also exposes them to significant safety risks, raising concerns about robustness, reliability, and ethical implications. This survey provides a systematic review of current safety research on large models, covering Vision Foundation Models (VFMs), Large Language Models (LLMs), Vision-Language Pre-training (VLP) models, Vision-Language Models (VLMs), Diffusion Models (DMs), and large-model-powered Agents. Our contributions are summarized as follows: (1) We present a comprehensive taxonomy of safety threats to these models, including adversarial attacks, data poisoning, backdoor attacks, jailbreak and prompt injection attacks, energy-latency attacks, data and model extraction attacks, and emerging agent-specific threats. (2) We review defense strategies proposed for each type of attacks if available and summarize the commonly used datasets and benchmarks for safety research. (3) Building on this, we identify and discuss the open challenges in large model safety, emphasizing the need for comprehensive safety evaluations, scalable and effective defense mechanisms, and sustainable data practices. More importantly, we highlight the necessity of collective efforts from the research community and international collaboration. Our work can serve as a useful reference for researchers and practitioners, fostering the ongoing development of comprehensive defense systems and platforms to safeguard AI models.


翻译:随着大规模预训练使模型在学习与泛化能力上取得突破性进展,人工智能(AI)格局已发生根本性重塑。这些模型已成为对话系统、推荐系统、自动驾驶、内容生成、医疗诊断及科学发现等广泛应用的基础支撑。然而,其广泛部署也暴露了显著的安全风险,引发对鲁棒性、可靠性及伦理影响的关注。本综述系统梳理了当前面向大规模模型的安全性研究进展,涵盖视觉基础模型(VFMs)、大语言模型(LLMs)、视觉语言预训练(VLP)模型、视觉语言模型(VLMs)、扩散模型(DMs)以及基于大模型的智能体。我们的贡献可概括为:(1)构建了面向这些模型的综合性安全威胁分类体系,包括对抗攻击、数据投毒、后门攻击、越狱与提示注入攻击、能量延迟攻击、数据与模型窃取攻击,以及新兴的智能体特有威胁;(2)针对各类攻击(若存在相应方案)系统评述了防御策略,并总结了安全研究中广泛使用的数据集与基准;(3)在此基础上,识别并探讨了大规模模型安全领域的开放性挑战,强调亟需综合安全评估、可扩展的有效防御机制及可持续数据实践。更为重要的是,我们呼吁研究共同体与国际社会开展协同合作。本工作可为研究人员与从业者提供重要参考,推动构建全面防御体系与平台以保障AI模型安全。

0
下载
关闭预览

相关内容

AI安全系列研究报告:安全优先的大模型
专知会员服务
22+阅读 · 2025年9月4日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
大规模安全:大模型安全的全面综述
专知会员服务
35+阅读 · 2025年2月11日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
50+阅读 · 2024年12月24日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
多视角看大模型安全及实践
专知会员服务
70+阅读 · 2024年4月1日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
53+阅读 · 2024年1月2日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
24+阅读 · 2024年2月23日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
AI安全系列研究报告:安全优先的大模型
专知会员服务
22+阅读 · 2025年9月4日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
大规模安全:大模型安全的全面综述
专知会员服务
35+阅读 · 2025年2月11日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
50+阅读 · 2024年12月24日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
多视角看大模型安全及实践
专知会员服务
70+阅读 · 2024年4月1日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
53+阅读 · 2024年1月2日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员