EVMbench: Evaluating AI Agents on Smart Contract Security - 专知论文

会员服务 ·

0

智能合约 · AI · 代码 · 区块链 · AI智能体 ·

EVMbench: Evaluating AI Agents on Smart Contract Security

翻译：EVMbench：评估AI智能体在智能合约安全方面的能力

Justin Wang,Andreas Bigger,Xiaohai Xu,Justin W. Lin,Andy Applebaum,Tejal Patwardhan,Alpin Yukseloglu,Olivia Watkins

Smart contracts on public blockchains now manage large amounts of value, and vulnerabilities in these systems can lead to substantial losses. As AI agents become more capable at reading, writing, and running code, it is natural to ask how well they can already navigate this landscape, both in ways that improve security and in ways that might increase risk. We introduce EVMbench, an evaluation that measures the ability of agents to detect, patch, and exploit smart contract vulnerabilities. EVMbench draws on 117 curated vulnerabilities from 40 repositories and, in the most realistic setting, uses programmatic grading based on tests and blockchain state under a local Ethereum execution environment. We evaluate a range of frontier agents and find that they are capable of discovering and exploiting vulnerabilities end-to-end against live blockchain instances. We release code, tasks, and tooling to support continued measurement of these capabilities and future work on security.

翻译：公共区块链上的智能合约目前管理着大量资产，这些系统中的漏洞可能导致重大损失。随着AI智能体在读取、编写和运行代码方面能力日益增强，我们很自然地要探究它们在此领域的能力水平——既包括提升安全性的方式，也涵盖可能增加风险的途径。本文提出EVMbench，这是一个用于评估智能体检测、修补和利用智能合约漏洞能力的评测框架。EVMbench整合了来自40个代码库的117个精选漏洞，并在最接近真实场景的设置中，基于本地以太坊执行环境下的测试和区块链状态进行程序化评分。我们对一系列前沿智能体进行评估，发现它们能够端到端地发现并利用实际区块链实例中的漏洞。我们开源了代码、任务和工具，以支持对此类能力的持续评估及未来的安全研究工作。

0

相关内容

智能合约

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

47+阅读 · 3月1日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

区块链自主智能体：标准规范、执行模型与信任边界研究

区块链自主智能体：标准规范、执行模型与信任边界研究

专知会员服务

18+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

68+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

28+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体安全综述：应用、威胁与防御

智能体安全综述：应用、威胁与防御

专知会员服务

41+阅读 · 2025年10月12日

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

专知会员服务

29+阅读 · 2025年6月25日

【新书】AI智能体的崛起：整合人工智能、区块链技术与量子计算

【新书】AI智能体的崛起：整合人工智能、区块链技术与量子计算

专知会员服务

64+阅读 · 2024年10月5日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Arxiv

0+阅读 · 3月11日

SmartGraphical: A Human-in-the-Loop Framework for Detecting Smart Contract Logical Vulnerabilities via Pattern-Driven Static Analysis and Visual Abstraction

Arxiv

0+阅读 · 3月9日

Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents

Arxiv

0+阅读 · 2月25日

Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents

Arxiv

0+阅读 · 2月24日

PoCo: Agentic Proof-of-Concept Exploit Generation for Smart Contracts

Arxiv

0+阅读 · 2月23日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

Giving AI Agents Access to Cryptocurrency and Smart Contracts Creates New Vectors of AI Harm

Arxiv

0+阅读 · 2月7日

MoveScanner: Analysis of Security Risks of Move Smart Contracts

Arxiv

0+阅读 · 2月2日

SmartBugBert: BERT-Enhanced Vulnerability Detection for Smart Contract Bytecode

Arxiv

0+阅读 · 1月31日

Security Analysis of Ponzi Schemes in Ethereum Smart Contracts

Arxiv

1+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

0+阅读 · 9分钟前

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

3+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

8+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

11+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

18+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

相关VIP内容

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

47+阅读 · 3月1日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

区块链自主智能体：标准规范、执行模型与信任边界研究

区块链自主智能体：标准规范、执行模型与信任边界研究

专知会员服务

18+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

68+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

28+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体安全综述：应用、威胁与防御

智能体安全综述：应用、威胁与防御

专知会员服务

41+阅读 · 2025年10月12日

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

专知会员服务

29+阅读 · 2025年6月25日

【新书】AI智能体的崛起：整合人工智能、区块链技术与量子计算

【新书】AI智能体的崛起：整合人工智能、区块链技术与量子计算

专知会员服务

64+阅读 · 2024年10月5日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Arxiv

0+阅读 · 3月11日

SmartGraphical: A Human-in-the-Loop Framework for Detecting Smart Contract Logical Vulnerabilities via Pattern-Driven Static Analysis and Visual Abstraction

Arxiv

0+阅读 · 3月9日

Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents

Arxiv

0+阅读 · 2月25日

Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents

Arxiv

0+阅读 · 2月24日

PoCo: Agentic Proof-of-Concept Exploit Generation for Smart Contracts

Arxiv

0+阅读 · 2月23日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

Giving AI Agents Access to Cryptocurrency and Smart Contracts Creates New Vectors of AI Harm

Arxiv

0+阅读 · 2月7日

MoveScanner: Analysis of Security Risks of Move Smart Contracts

Arxiv

0+阅读 · 2月2日

SmartBugBert: BERT-Enhanced Vulnerability Detection for Smart Contract Bytecode

Arxiv

0+阅读 · 1月31日

Security Analysis of Ponzi Schemes in Ethereum Smart Contracts

Arxiv

1+阅读 · 1月30日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员