Smart contracts on public blockchains now manage large amounts of value, and vulnerabilities in these systems can lead to substantial losses. As AI agents become more capable at reading, writing, and running code, it is natural to ask how well they can already navigate this landscape, both in ways that improve security and in ways that might increase risk. We introduce EVMbench, an evaluation that measures the ability of agents to detect, patch, and exploit smart contract vulnerabilities. EVMbench draws on 117 curated vulnerabilities from 40 repositories and, in the most realistic setting, uses programmatic grading based on tests and blockchain state under a local Ethereum execution environment. We evaluate a range of frontier agents and find that they are capable of discovering and exploiting vulnerabilities end-to-end against live blockchain instances. We release code, tasks, and tooling to support continued measurement of these capabilities and future work on security.


翻译:公共区块链上的智能合约目前管理着大量资产,这些系统中的漏洞可能导致重大损失。随着AI智能体在读取、编写和运行代码方面能力日益增强,我们很自然地要探究它们在此领域的能力水平——既包括提升安全性的方式,也涵盖可能增加风险的途径。本文提出EVMbench,这是一个用于评估智能体检测、修补和利用智能合约漏洞能力的评测框架。EVMbench整合了来自40个代码库的117个精选漏洞,并在最接近真实场景的设置中,基于本地以太坊执行环境下的测试和区块链状态进行程序化评分。我们对一系列前沿智能体进行评估,发现它们能够端到端地发现并利用实际区块链实例中的漏洞。我们开源了代码、任务和工具,以支持对此类能力的持续评估及未来的安全研究工作。

0
下载
关闭预览

相关内容

伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
36+阅读 · 3月1日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
30+阅读 · 2025年12月31日
智能体安全综述:应用、威胁与防御
专知会员服务
41+阅读 · 2025年10月12日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员