GT-HarmBench：基于博弈论视角的AI安全风险基准测试 (GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory) - 专知论文

会员服务 ·

0

博弈 · AI · 基准 · 基准测试 · 博弈论 ·

GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

翻译：GT-HarmBench：基于博弈论视角的AI安全风险基准测试

Pepijn Cobben,Xuanqiang Angelo Huang,Thao Amelia Pham,Isabel Dahlgren,Terry Jingchen Zhang,Zhijing Jin

Frontier AI systems are increasingly capable and deployed in high-stakes multi-agent environments. However, existing AI safety benchmarks largely evaluate single agents, leaving multi-agent risks such as coordination failure and conflict poorly understood. We introduce GT-HarmBench, a benchmark of 2,009 high-stakes scenarios spanning game-theoretic structures such as the Prisoner's Dilemma, Stag Hunt and Chicken. Scenarios are drawn from realistic AI risk contexts in the MIT AI Risk Repository. Across 15 frontier models, agents choose socially beneficial actions in only 62% of cases, frequently leading to harmful outcomes. We measure sensitivity to game-theoretic prompt framing and ordering, and analyze reasoning patterns driving failures. We further show that game-theoretic interventions improve socially beneficial outcomes by up to 18%. Our results highlight substantial reliability gaps and provide a broad standardized testbed for studying alignment in multi-agent environments. The benchmark and code are available at https://github.com/causalNLP/gt-harmbench.

翻译：前沿人工智能系统正变得日益强大，并被部署于高风险的多智能体环境中。然而，现有的AI安全基准主要评估单一智能体，导致对协调失败与冲突等多智能体风险的理解严重不足。我们提出了GT-HarmBench，这是一个包含2009个高风险场景的基准测试集，涵盖了囚徒困境、猎鹿博弈和胆小鬼博弈等博弈论结构。这些场景源自MIT AI风险知识库中的现实AI风险情境。在15个前沿模型中，智能体仅在62%的情况下选择了对社会有益的行动，常常导致有害结果。我们测量了模型对博弈论提示框架和顺序的敏感性，并分析了导致失败的推理模式。我们进一步表明，博弈论干预可将有益于社会的结果提升多达18%。我们的结果凸显了巨大的可靠性差距，并为研究多智能体环境下的对齐问题提供了一个广泛的标准化测试平台。基准测试集与代码可在 https://github.com/causalNLP/gt-harmbench 获取。

0

相关内容

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

9+阅读 · 2月15日

前沿人工智能趋势报告（Frontier AI Trends Report）

前沿人工智能趋势报告（Frontier AI Trends Report）

专知会员服务

37+阅读 · 2025年12月20日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

《高级AI带来的多智能体风险》最新97页干活技术报告

《高级AI带来的多智能体风险》最新97页干活技术报告

专知会员服务

45+阅读 · 2025年3月4日

先进人工智能的多智能体风险

先进人工智能的多智能体风险

专知会员服务

25+阅读 · 2025年2月22日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

大模型安全与对齐：复杂系统视角下的AI安全

大模型安全与对齐：复杂系统视角下的AI安全

专知会员服务

48+阅读 · 2024年1月2日

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

专知会员服务

33+阅读 · 2023年2月9日

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

专知会员服务

66+阅读 · 2023年2月1日

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

专知会员服务

57+阅读 · 2022年6月15日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

37+阅读 · 2022年10月19日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

114+阅读 · 2022年9月1日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Arxiv

0+阅读 · 2月16日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

How Should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 2月8日

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Arxiv

0+阅读 · 2月7日

PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm

Arxiv

0+阅读 · 2月3日

How should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 1月30日

The Need for Benchmarks to Advance AI-Enabled Player Risk Detection in Gambling

Arxiv

0+阅读 · 1月27日

When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets

Arxiv

0+阅读 · 1月17日

SafePro: Evaluating the Safety of Professional-Level AI Agents

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

9+阅读 · 2月15日

前沿人工智能趋势报告（Frontier AI Trends Report）

前沿人工智能趋势报告（Frontier AI Trends Report）

专知会员服务

37+阅读 · 2025年12月20日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

《高级AI带来的多智能体风险》最新97页干活技术报告

《高级AI带来的多智能体风险》最新97页干活技术报告

专知会员服务

45+阅读 · 2025年3月4日

先进人工智能的多智能体风险

先进人工智能的多智能体风险

专知会员服务

25+阅读 · 2025年2月22日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

大模型安全与对齐：复杂系统视角下的AI安全

大模型安全与对齐：复杂系统视角下的AI安全

专知会员服务

48+阅读 · 2024年1月2日

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

【AAAI2023教程】值得信赖和负责任的AI:公平性、可解释性、透明度及其相互作用，200+Slides

专知会员服务

33+阅读 · 2023年2月9日

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

《人工智能风险管理框架》2023最新48页报告，美国国家标准技术研究所 (NIST)

专知会员服务

66+阅读 · 2023年2月1日

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

专知会员服务

57+阅读 · 2022年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

37+阅读 · 2022年10月19日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

114+阅读 · 2022年9月1日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

相关论文

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Arxiv

0+阅读 · 2月16日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

How Should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 2月8日

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Arxiv

0+阅读 · 2月7日

PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm

Arxiv

0+阅读 · 2月3日

How should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 1月30日

The Need for Benchmarks to Advance AI-Enabled Player Risk Detection in Gambling

Arxiv

0+阅读 · 1月27日

When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets

Arxiv

0+阅读 · 1月17日

SafePro: Evaluating the Safety of Professional-Level AI Agents

Arxiv

0+阅读 · 1月13日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员