The Intelligence Advanced Research Projects Activity (IARPA) launched the TrojAI program to confront an emerging vulnerability in modern artificial intelligence: the threat of AI Trojans. These AI trojans are malicious, hidden backdoors intentionally embedded within an AI model that can cause a system to fail in unexpected ways, or allow a malicious actor to hijack the AI model at will. This multi-year initiative helped to map out the complex nature of the threat, pioneered foundational detection methods, and identified unsolved challenges that require ongoing attention by the burgeoning AI security field. This report synthesizes the program's key findings, including methodologies for detection through weight analysis and trigger inversion, as well as approaches for mitigating Trojan risks in deployed models. Comprehensive test and evaluation results highlight detector performance, sensitivity, and the prevalence of "natural" Trojans. The report concludes with lessons learned and recommendations for advancing AI security research.


翻译:美国情报高级研究计划局(IARPA)启动了TrojAI计划,以应对现代人工智能中一个新兴的脆弱性:AI木马的威胁。这些AI木马是恶意、隐蔽的后门,被有意嵌入AI模型中,可导致系统以意外方式失效,或允许恶意行为者随意劫持AI模型。这项为期多年的计划帮助厘清了该威胁的复杂本质,开创了基础性的检测方法,并指出了蓬勃发展的AI安全领域仍需持续关注的未解难题。本报告综合了该计划的关键发现,包括通过权重分析和触发器逆向进行检测的方法论,以及缓解已部署模型中木马风险的对策。全面的测试与评估结果凸显了检测器的性能、灵敏度以及“自然”木马的普遍性。报告最后总结了经验教训,并为推进AI安全研究提出了建议。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
《人工智能对抗认知战的基本风险​​》最新报告30页
专知会员服务
28+阅读 · 2025年7月8日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
《人工智能与影响力作战:最新趋势》2024最新39页报告
专知会员服务
46+阅读 · 2024年6月11日
2024 人工智能安全报告
专知会员服务
83+阅读 · 2024年3月8日
《人工智能灾难性风险概述》2023最新55页报告
专知会员服务
70+阅读 · 2023年10月6日
美国人工智能国家安全委员会发布最终报告, 130页pdf
专知会员服务
146+阅读 · 2021年3月2日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Astra: AI Safety, Trust, & Risk Assessment
Arxiv
0+阅读 · 2月19日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
相关资讯
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员