Rapidly evolving AI exhibits increasingly strong autonomy and goal-directed capabilities, accompanied by derivative systemic risks that are more unpredictable, difficult to control, and potentially irreversible. However, current AI safety evaluation systems suffer from critical limitations such as restricted risk dimensions and failed frontier risk detection. The lagging safety benchmarks and alignment technologies can hardly address the complex challenges posed by cutting-edge AI models. To bridge this gap, we propose the "ForesightSafety Bench" AI Safety Evaluation Framework, beginning with 7 major Fundamental Safety pillars and progressively extends to advanced Embodied AI Safety, AI4Science Safety, Social and Environmental AI risks, Catastrophic and Existential Risks, as well as 8 critical industrial safety domains, forming a total of 94 refined risk dimensions. To date, the benchmark has accumulated tens of thousands of structured risk data points and assessment results, establishing a widely encompassing, hierarchically clear, and dynamically evolving AI safety evaluation framework. Based on this benchmark, we conduct systematic evaluation and in-depth analysis of over twenty mainstream advanced large models, identifying key risk patterns and their capability boundaries. The safety capability evaluation results reveals the widespread safety vulnerabilities of frontier AI across multiple pillars, particularly focusing on Risky Agentic Autonomy, AI4Science Safety, Embodied AI Safety, Social AI Safety and Catastrophic and Existential Risks. Our benchmark is released at https://github.com/Beijing-AISI/ForesightSafety-Bench. The project website is available at https://foresightsafety-bench.beijing-aisi.ac.cn/.


翻译:快速演进的人工智能展现出日益强大的自主性与目标导向能力,同时衍生出更具不可预测性、难以控制且可能不可逆转的系统性风险。然而,当前的人工智能安全评估体系存在风险维度受限、前沿风险检测失效等关键局限。滞后的安全基准与对齐技术难以应对尖端人工智能模型带来的复杂挑战。为弥补这一差距,我们提出“前瞻安全基准”人工智能安全评估框架,从7大基础安全支柱出发,逐步延伸至高级具身人工智能安全、AI4Science安全、社会与环境人工智能风险、灾难性与生存性风险,以及8个关键工业安全领域,共形成94个精细化风险维度。截至目前,该基准已积累数万个结构化风险数据点与评估结果,建立起一个覆盖广泛、层次清晰且动态演进的人工智能安全评估框架。基于此基准,我们对二十余个主流先进大模型进行了系统性评估与深入分析,识别出关键风险模式及其能力边界。安全能力评估结果揭示了前沿人工智能在多个支柱上普遍存在的安全脆弱性,尤其聚焦于风险性自主智能体、AI4Science安全、具身人工智能安全、社会人工智能安全以及灾难性与生存性风险。我们的基准发布于 https://github.com/Beijing-AISI/ForesightSafety-Bench。项目网站可通过 https://foresightsafety-bench.beijing-aisi.ac.cn/ 访问。

0
下载
关闭预览

相关内容

前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
37+阅读 · 2025年12月20日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
中国信通院发布《人工智能风险治理报告(2024年)》
专知会员服务
45+阅读 · 2024年12月26日
国家标准《人工智能风险管理能力评估》(征求意见稿)
《人工智能灾难性风险概述》2023最新55页报告
专知会员服务
68+阅读 · 2023年10月6日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
378+阅读 · 2022年2月26日
专知会员服务
63+阅读 · 2021年7月5日
GSMA:人工智能赋能安全应用案例集,114页pdf
专知会员服务
68+阅读 · 2021年3月16日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
边缘智能发展与演进白皮书
物联网智库
13+阅读 · 2019年6月17日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关VIP内容
前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
37+阅读 · 2025年12月20日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
中国信通院发布《人工智能风险治理报告(2024年)》
专知会员服务
45+阅读 · 2024年12月26日
国家标准《人工智能风险管理能力评估》(征求意见稿)
《人工智能灾难性风险概述》2023最新55页报告
专知会员服务
68+阅读 · 2023年10月6日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
378+阅读 · 2022年2月26日
专知会员服务
63+阅读 · 2021年7月5日
GSMA:人工智能赋能安全应用案例集,114页pdf
专知会员服务
68+阅读 · 2021年3月16日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员