Smart contract vulnerabilities have led to billions in losses, yet finding actionable exploits remains challenging. Traditional fuzzers rely on rigid heuristics and struggle with complex attacks, while human auditors are thorough but slow and don't scale. Large Language Models offer a promising middle ground, combining human-like reasoning with machine speed. Early studies show that simply prompting LLMs generates unverified vulnerability speculations with high false positive rates. To address this, we present A1, an agentic system that transforms any LLM into an end-to-end exploit generator. A1 provides agents with six domain-specific tools for autonomous vulnerability discovery, from understanding contract behavior to testing strategies on real blockchain states. All outputs are concretely validated through execution, ensuring only profitable proof-of-concept exploits are reported. We evaluate A1 across 36 real-world vulnerable contracts on Ethereum and Binance Smart Chain. A1 achieves a 63% success rate on the VERITE benchmark. Across all successful cases, A1 extracts up to \$8.59 million per exploit and \$9.33 million total. Using Monte Carlo analysis of historical attacks, we demonstrate that immediate vulnerability detection yields 86-89% success probability, dropping to 6-21% with week-long delays. Our economic analysis reveals a troubling asymmetry: attackers achieve profitability at \$6,000 exploit values while defenders require \$60,000 -- raising fundamental questions about whether AI agents inevitably favor exploitation over defense.


翻译:智能合约漏洞已导致数十亿美元损失,然而发现可实际利用的漏洞仍具挑战性。传统模糊测试工具依赖僵化的启发式规则,难以应对复杂攻击;人工审计虽全面但速度缓慢且无法规模化。大语言模型提供了有前景的中间路径,兼具类人推理能力与机器运算速度。早期研究表明,直接提示大语言模型会产生大量未经验证的漏洞推测,误报率极高。为此,我们提出A1——一个将任意大语言模型转化为端到端漏洞利用生成器的智能体系统。A1为智能体提供六种领域专用工具,使其能够自主完成从理解合约行为到在真实区块链状态测试策略的全流程漏洞发现。所有输出均通过实际执行进行具体验证,确保仅报告具备盈利性的概念验证漏洞利用方案。我们在以太坊和币安智能链的36个真实漏洞合约上评估A1系统。在VERITE基准测试中,A1达到63%的成功率。在所有成功案例中,A1单次漏洞利用最高可提取859万美元,累计提取933万美元。通过对历史攻击的蒙特卡洛分析,我们证明即时漏洞检测可实现86-89%的成功概率,若延迟一周则骤降至6-21%。我们的经济分析揭示了一个令人担忧的不对称现象:攻击者在漏洞利用价值达6000美元时即可盈利,而防御方需要达到60000美元——这引发了根本性疑问:AI智能体是否必然更倾向于漏洞利用而非防御。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
生成式人工智能的军事应用及路径探讨
专知会员服务
23+阅读 · 2025年11月12日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
【新书】利用生成式人工智能进行网络防御策略
专知会员服务
31+阅读 · 2024年10月18日
2024中国AI Agent行业研究报告|附60页PDF文件下载
专知会员服务
125+阅读 · 2024年4月30日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
生成式人工智能的军事应用及路径探讨
专知会员服务
23+阅读 · 2025年11月12日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
【新书】利用生成式人工智能进行网络防御策略
专知会员服务
31+阅读 · 2024年10月18日
2024中国AI Agent行业研究报告|附60页PDF文件下载
专知会员服务
125+阅读 · 2024年4月30日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员