将LLMs作为Solidity的验证预言机 (LLMs as verification oracles for Solidity) - 专知论文

会员服务 ·

0

工具 · 形式化 · 有效性 · 智能合约 · 损失 ·

LLMs as verification oracles for Solidity

翻译：将LLMs作为Solidity的验证预言机

Massimo Bartoletti,Enrico Lipparini,Livio Pompianu

Ensuring the correctness of smart contracts is critical, as even subtle flaws can lead to severe financial losses. While bug detection tools able to spot common vulnerability patterns can serve as a first line of defense, most real-world exploits and losses stem from errors in the contract business logic. Formal verification tools such as SolCMC and the Certora Prover address this challenge, but their impact remains limited by steep learning curves and restricted specification languages. Recent works have begun to explore the use of large language models (LLMs) for security-related tasks such as vulnerability detection and test generation. Yet, a fundamental question remains open: can LLMs aid in assessing the validity of arbitrary contract-specific properties? In this paper, we provide the first systematic empirical evaluation of GPT-5, a state-of-the-art reasoning LLM, in this role. We benchmark its performance on a large dataset of verification tasks, compare its outputs against those of established formal verification tools, and assess its practical effectiveness in real-world auditing scenarios. Our study combines quantitative metrics with qualitative analysis, and shows that recent reasoning-oriented LLMs - although lacking soundness guarantees - can be surprisingly effective at predicting the (in)validity of complex properties, suggesting a new frontier in the convergence of AI and formal methods for secure smart contract development and auditing.

翻译：确保智能合约的正确性至关重要，因为即使细微的缺陷也可能导致严重的财务损失。虽然能够识别常见漏洞模式的错误检测工具可以作为第一道防线，但现实世界中的大多数漏洞利用和损失源于合约业务逻辑中的错误。诸如SolCMC和Certora Prover等形式化验证工具应对了这一挑战，但其影响仍受限于陡峭的学习曲线和受限的规范语言。近期研究已开始探索使用大型语言模型（LLMs）执行安全相关任务，例如漏洞检测和测试生成。然而，一个根本性问题仍未解决：LLMs能否帮助评估任意合约特定属性的有效性？在本文中，我们首次对最先进的推理型LLM——GPT-5——在此角色中的表现进行了系统的实证评估。我们在一个大型验证任务数据集上对其性能进行基准测试，将其输出与成熟的形式化验证工具的输出进行比较，并评估其在现实世界审计场景中的实际有效性。我们的研究结合了定量指标与定性分析，结果表明，尽管缺乏可靠性保证，近期以推理为导向的LLMs在预测复杂属性的（不）有效性方面可以表现出惊人的效果，这为AI与形式化方法在安全智能合约开发与审计领域的融合开辟了新的前沿。

0

相关内容

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

《利用 LLM 进行高级持续性威胁 (APT) 检测和智能解释》

《利用 LLM 进行高级持续性威胁 (APT) 检测和智能解释》

专知会员服务

23+阅读 · 2025年2月14日

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

专知会员服务

33+阅读 · 2024年10月7日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知

15+阅读 · 2020年3月25日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

针对S芯片验证模块引脚信息的自动分析技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维单调转移模型的变量选择及其在违约风险评估中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

LogicScan: An LLM-driven Framework for Detecting Business Logic Vulnerabilities in Smart Contracts

Arxiv

0+阅读 · 2月3日

No More Hidden Pitfalls? Exposing Smart Contract Bad Practices with LLM-Powered Hybrid Analysis

Arxiv

0+阅读 · 1月31日

Sifting the Noise: A Comparative Study of LLM Agents in Vulnerability False Positive Filtering

Arxiv

0+阅读 · 1月30日

Prompt to Pwn: Automated Exploit Generation for Smart Contracts

Arxiv

0+阅读 · 1月25日

Automatic Generation of Formal Specification and Verification Annotations Using LLMs and Test Oracles

Arxiv

0+阅读 · 1月19日

Security Vulnerabilities in Ethereum Smart Contracts: A Systematic Analysis

Arxiv

0+阅读 · 1月16日

LLMs in Code Vulnerability Analysis: A Proof of Concept

Arxiv

0+阅读 · 1月13日

SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation

Arxiv

0+阅读 · 1月13日

AI Agent Smart Contract Exploit Generation

Arxiv

0+阅读 · 1月12日

Understanding LLM-Driven Test Oracle Generation

Arxiv

0+阅读 · 1月9日

VIP会员

文章信息

相关主题

相关VIP内容

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

《利用 LLM 进行高级持续性威胁 (APT) 检测和智能解释》

《利用 LLM 进行高级持续性威胁 (APT) 检测和智能解释》

专知会员服务

23+阅读 · 2025年2月14日

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

专知会员服务

33+阅读 · 2024年10月7日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知

15+阅读 · 2020年3月25日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

LogicScan: An LLM-driven Framework for Detecting Business Logic Vulnerabilities in Smart Contracts

Arxiv

0+阅读 · 2月3日

No More Hidden Pitfalls? Exposing Smart Contract Bad Practices with LLM-Powered Hybrid Analysis

Arxiv

0+阅读 · 1月31日

Sifting the Noise: A Comparative Study of LLM Agents in Vulnerability False Positive Filtering

Arxiv

0+阅读 · 1月30日

Prompt to Pwn: Automated Exploit Generation for Smart Contracts

Arxiv

0+阅读 · 1月25日

Automatic Generation of Formal Specification and Verification Annotations Using LLMs and Test Oracles

Arxiv

0+阅读 · 1月19日

Security Vulnerabilities in Ethereum Smart Contracts: A Systematic Analysis

Arxiv

0+阅读 · 1月16日

LLMs in Code Vulnerability Analysis: A Proof of Concept

Arxiv

0+阅读 · 1月13日

SolContractEval: A Benchmark for Evaluating Contract-Level Solidity Code Generation

Arxiv

0+阅读 · 1月13日

AI Agent Smart Contract Exploit Generation

Arxiv

0+阅读 · 1月12日

Understanding LLM-Driven Test Oracle Generation

Arxiv

0+阅读 · 1月9日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

针对S芯片验证模块引脚信息的自动分析技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维单调转移模型的变量选择及其在违约风险评估中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员