GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory - 专知论文

会员服务 ·

0

AI · 博弈论 · 张成子空间 · 麻省理工学院 · MoDELS ·

GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

翻译：暂无翻译

Pepijn Cobben,Xuanqiang Angelo Huang,Thao Amelia Pham,Isabel Dahlgren,Terry Jingchen Zhang,Zhijing Jin

Frontier AI systems are increasingly capable and deployed in high-stakes multi-agent environments. However, existing AI safety benchmarks largely evaluate single agents, leaving multi-agent risks such as coordination failure and conflict poorly understood. We introduce GT-HarmBench, a benchmark of 1,535 high-stakes scenarios spanning game-theoretic structures such as the Prisoner's Dilemma, Stag Hunt and Chicken. Scenarios are drawn from realistic AI risk contexts in the MIT AI Risk Repository. Across 15 frontier models, agents fail to choose socially beneficial actions in 38% of high-stakes cases, such as military escalation, election manipulation, and medical malpractice. We measure sensitivity to game-theoretic prompt framing and ordering, and analyze reasoning patterns driving failures. We further show that game-theoretic interventions improve socially beneficial outcomes by up to 18%. Our results highlight substantial reliability gaps and provide a broad standardized testbed for studying alignment in multi-agent environments. The benchmark and code are available at https://github.com/causalNLP/gt-harmbench.

翻译：暂无翻译

0

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

11+阅读 · 5月6日

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

30+阅读 · 1月13日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

298页！Bengio领衔发布首份国际《人工智能安全》报告，总结人工智能能力与风险的现状，并提出了如何减轻这些风险的措施。

298页！Bengio领衔发布首份国际《人工智能安全》报告，总结人工智能能力与风险的现状，并提出了如何减轻这些风险的措施。

专知会员服务

46+阅读 · 2025年1月29日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

19+阅读 · 2025年1月20日

大模型安全与对齐：复杂系统视角下的AI安全

大模型安全与对齐：复杂系统视角下的AI安全

专知会员服务

53+阅读 · 2024年1月2日

《人工智能灾难性风险概述》2023最新55页报告

《人工智能灾难性风险概述》2023最新55页报告

专知会员服务

70+阅读 · 2023年10月6日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

GSMA：人工智能赋能安全应用案例集，114页pdf

GSMA：人工智能赋能安全应用案例集，114页pdf

专知会员服务

68+阅读 · 2021年3月16日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

专知

26+阅读 · 2023年4月7日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

边缘智能发展与演进白皮书

边缘智能发展与演进白皮书

物联网智库

13+阅读 · 2019年6月17日

【MIT重磅】人工智能新技术综述：数据、算法、人机协作

【MIT重磅】人工智能新技术综述：数据、算法、人机协作

专知

13+阅读 · 2019年5月11日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

厚势

14+阅读 · 2018年9月11日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

面向踩踏事故防范的运动人群无人机协同航拍及风险演化态势计算

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下公路网突发事件预警与应急决策研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

Arxiv

0+阅读 · 6月18日

Diffuse AI Control on Fuzzy Tasks

Arxiv

0+阅读 · 6月17日

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Arxiv

0+阅读 · 6月17日

AI-Driven Assessment of Human Tutors: Linking Training Performance to Real-Life Practice

Arxiv

0+阅读 · 6月17日

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

Arxiv

0+阅读 · 6月16日

The Insurability Frontier of AI Risk: Mapping Threats to Affirmative Coverage, Silent Exposures, and Exclusions

Arxiv

0+阅读 · 6月12日

RiskFlow: Fast and Faithful Safety-Critical Traffic Scenario Generation

Arxiv

0+阅读 · 6月4日

Insurance of Agentic AI

Arxiv

0+阅读 · 6月3日

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 5月21日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

VIP会员

文章信息

相关主题

张成子空间

麻省理工学院

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

11+阅读 · 5月6日

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

30+阅读 · 1月13日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

298页！Bengio领衔发布首份国际《人工智能安全》报告，总结人工智能能力与风险的现状，并提出了如何减轻这些风险的措施。

298页！Bengio领衔发布首份国际《人工智能安全》报告，总结人工智能能力与风险的现状，并提出了如何减轻这些风险的措施。

专知会员服务

46+阅读 · 2025年1月29日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

19+阅读 · 2025年1月20日

大模型安全与对齐：复杂系统视角下的AI安全

大模型安全与对齐：复杂系统视角下的AI安全

专知会员服务

53+阅读 · 2024年1月2日

《人工智能灾难性风险概述》2023最新55页报告

《人工智能灾难性风险概述》2023最新55页报告

专知会员服务

70+阅读 · 2023年10月6日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

GSMA：人工智能赋能安全应用案例集，114页pdf

GSMA：人工智能赋能安全应用案例集，114页pdf

专知会员服务

68+阅读 · 2021年3月16日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

【ChatGPT系列报告】AI+行业应用深度研究，28页ppt

专知

26+阅读 · 2023年4月7日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

边缘智能发展与演进白皮书

边缘智能发展与演进白皮书

物联网智库

13+阅读 · 2019年6月17日

【MIT重磅】人工智能新技术综述：数据、算法、人机协作

【MIT重磅】人工智能新技术综述：数据、算法、人机协作

专知

13+阅读 · 2019年5月11日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

厚势

14+阅读 · 2018年9月11日

相关论文

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

Arxiv

0+阅读 · 6月18日

Diffuse AI Control on Fuzzy Tasks

Arxiv

0+阅读 · 6月17日

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Arxiv

0+阅读 · 6月17日

AI-Driven Assessment of Human Tutors: Linking Training Performance to Real-Life Practice

Arxiv

0+阅读 · 6月17日

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

Arxiv

0+阅读 · 6月16日

The Insurability Frontier of AI Risk: Mapping Threats to Affirmative Coverage, Silent Exposures, and Exclusions

Arxiv

0+阅读 · 6月12日

RiskFlow: Fast and Faithful Safety-Critical Traffic Scenario Generation

Arxiv

0+阅读 · 6月4日

Insurance of Agentic AI

Arxiv

0+阅读 · 6月3日

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 5月21日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

面向踩踏事故防范的运动人群无人机协同航拍及风险演化态势计算

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下公路网突发事件预警与应急决策研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员