Frontier AI systems are increasingly capable and deployed in high-stakes multi-agent environments. However, existing AI safety benchmarks largely evaluate single agents, leaving multi-agent risks such as coordination failure and conflict poorly understood. We introduce GT-HarmBench, a benchmark of 1,535 high-stakes scenarios spanning game-theoretic structures such as the Prisoner's Dilemma, Stag Hunt and Chicken. Scenarios are drawn from realistic AI risk contexts in the MIT AI Risk Repository. Across 15 frontier models, agents fail to choose socially beneficial actions in 38% of high-stakes cases, such as military escalation, election manipulation, and medical malpractice. We measure sensitivity to game-theoretic prompt framing and ordering, and analyze reasoning patterns driving failures. We further show that game-theoretic interventions improve socially beneficial outcomes by up to 18%. Our results highlight substantial reliability gaps and provide a broad standardized testbed for studying alignment in multi-agent environments. The benchmark and code are available at https://github.com/causalNLP/gt-harmbench.


翻译:暂无翻译

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
具身AI安全综述:风险、攻击与防御
专知会员服务
11+阅读 · 5月6日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
53+阅读 · 2024年1月2日
《人工智能灾难性风险概述》2023最新55页报告
专知会员服务
70+阅读 · 2023年10月6日
人工智能安全挑战及治理研究
专知会员服务
67+阅读 · 2023年6月18日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
378+阅读 · 2022年2月26日
GSMA:人工智能赋能安全应用案例集,114页pdf
专知会员服务
68+阅读 · 2021年3月16日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
边缘智能发展与演进白皮书
物联网智库
13+阅读 · 2019年6月17日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月17日
Arxiv
0+阅读 · 6月3日
Arxiv
46+阅读 · 2021年10月4日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
具身AI安全综述:风险、攻击与防御
专知会员服务
11+阅读 · 5月6日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
53+阅读 · 2024年1月2日
《人工智能灾难性风险概述》2023最新55页报告
专知会员服务
70+阅读 · 2023年10月6日
人工智能安全挑战及治理研究
专知会员服务
67+阅读 · 2023年6月18日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
378+阅读 · 2022年2月26日
GSMA:人工智能赋能安全应用案例集,114页pdf
专知会员服务
68+阅读 · 2021年3月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员