Frontier AI systems are increasingly capable and deployed in high-stakes multi-agent environments. However, existing AI safety benchmarks largely evaluate single agents, leaving multi-agent risks such as coordination failure and conflict poorly understood. We introduce GT-HarmBench, a benchmark of 2,009 high-stakes scenarios spanning game-theoretic structures such as the Prisoner's Dilemma, Stag Hunt and Chicken. Scenarios are drawn from realistic AI risk contexts in the MIT AI Risk Repository. Across 15 frontier models, agents choose socially beneficial actions in only 62% of cases, frequently leading to harmful outcomes. We measure sensitivity to game-theoretic prompt framing and ordering, and analyze reasoning patterns driving failures. We further show that game-theoretic interventions improve socially beneficial outcomes by up to 18%. Our results highlight substantial reliability gaps and provide a broad standardized testbed for studying alignment in multi-agent environments. The benchmark and code are available at https://github.com/causalNLP/gt-harmbench.


翻译:前沿人工智能系统正变得日益强大,并被部署于高风险的多智能体环境中。然而,现有的AI安全基准主要评估单一智能体,导致对协调失败与冲突等多智能体风险的理解严重不足。我们提出了GT-HarmBench,这是一个包含2009个高风险场景的基准测试集,涵盖了囚徒困境、猎鹿博弈和胆小鬼博弈等博弈论结构。这些场景源自MIT AI风险知识库中的现实AI风险情境。在15个前沿模型中,智能体仅在62%的情况下选择了对社会有益的行动,常常导致有害结果。我们测量了模型对博弈论提示框架和顺序的敏感性,并分析了导致失败的推理模式。我们进一步表明,博弈论干预可将有益于社会的结果提升多达18%。我们的结果凸显了巨大的可靠性差距,并为研究多智能体环境下的对齐问题提供了一个广泛的标准化测试平台。基准测试集与代码可在 https://github.com/causalNLP/gt-harmbench 获取。

0
下载
关闭预览

相关内容

前沿人工智能趋势报告(Frontier AI Trends Report)
专知会员服务
37+阅读 · 2025年12月20日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
45+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
25+阅读 · 2025年2月22日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
48+阅读 · 2024年1月2日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员