Following the AI Seoul Summit in 2024, twelve AI companies published frontier AI safety frameworks (Frameworks) outlining their approaches to managing catastrophic risks from advanced AI systems. Emerging legislation increasingly treats these Frameworks as external accountability mechanisms, incorporating them into reporting requirements. But what do the Frameworks actually commit each company to do? This study assesses 12 Frameworks, using 65 weighted criteria, across four dimensions: risk identification, risk analysis \& evaluation, risk treatment, and risk governance. Our criteria adapt established risk management principles from other high-risk industries (e.g. aviation, nuclear power) to the frontier AI context, following Campos et al. (2025). Overall scores range from 34% (Anthropic) to 8% (Cohere), with a median of 18%. Many aspects are missing or under-specified. These low scores may be natural given the nascency of AI risk management compared to industries with decades of practice. Nonetheless, current Frameworks are limited as accountability functions, with vague commitments that make it difficult to predict company decisions, assess whether planned responses are adequate, or determine whether commitments have been kept. Still, higher scores appear feasible within current constraints: a company adopting all leading practices currently adopted across their peers would score 54%, which is triple the current median.


翻译:继2024年首尔人工智能峰会之后,十二家AI公司发布了前沿AI安全框架,概述了它们管理先进AI系统带来的灾难性风险的方法。新兴立法越来越多地将这些框架视为外部问责机制,并将其纳入报告要求中。但这些框架实际要求每家公司做出哪些承诺?本研究评估了12个框架,使用65项加权标准,涵盖四个维度:风险识别、风险分析与评估、风险处理和风险治理。我们的标准借鉴了其他高风险行业(如航空、核电)已建立的风险管理原则,并针对前沿AI背景进行了调整,遵循Campos等人(2025)的研究。总体得分从34%(Anthropic)到8%(Cohere)不等,中位数为18%。许多方面缺失或规定不足。鉴于AI风险管理相比拥有数十年实践的行业仍处于起步阶段,这些低分可能是自然的。尽管如此,当前框架作为问责功能有限,模糊的承诺使得难以预测公司决策、评估计划应对措施是否充分,或确定承诺是否得到履行。然而,在当前约束下实现更高分数似乎可行:一家采用同行公司所有领先实践的公司将获得54%的分数,是当前中位数的三倍。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
《人工智能使能系统可靠性框架》
专知会员服务
20+阅读 · 4月27日
前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
39+阅读 · 2025年12月20日
《人工智能安全治理框架》2.0版发布,90页pdf
专知会员服务
23+阅读 · 2025年10月8日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
《人工智能安全治理框架》1.0版发布
专知会员服务
31+阅读 · 2024年9月9日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
378+阅读 · 2022年2月26日
联合国教科文组织发布《人工智能伦理建议书》
专知会员服务
52+阅读 · 2021年12月7日
专知会员服务
64+阅读 · 2021年7月5日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月20日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 18分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《人工智能使能系统可靠性框架》
专知会员服务
20+阅读 · 4月27日
前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
39+阅读 · 2025年12月20日
《人工智能安全治理框架》2.0版发布,90页pdf
专知会员服务
23+阅读 · 2025年10月8日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
《人工智能安全治理框架》1.0版发布
专知会员服务
31+阅读 · 2024年9月9日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
378+阅读 · 2022年2月26日
联合国教科文组织发布《人工智能伦理建议书》
专知会员服务
52+阅读 · 2021年12月7日
专知会员服务
64+阅读 · 2021年7月5日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员