We present an end-to-end framework for systematic evaluation of LLM-generated smart contracts from natural-language specifications. The system parses contractual text into structured schemas, generates Solidity code, and performs automated quality assessment through compilation and security checks. Using CrewAI-style agent teams with iterative refinement, the pipeline produces structured artifacts with full provenance metadata. Quality is measured across five dimensions, including functional completeness, variable fidelity, state-machine correctness, business-logic fidelity, and code quality aggregated into composite scores. The framework supports paired evaluation against ground-truth implementations, quantifying alignment and identifying systematic error modes such as logic omissions and state transition inconsistencies. This provides a reproducible benchmark for empirical research on smart contract synthesis quality and supports extensions to formal verification and compliance checking.


翻译:我们提出了一种端到端框架,用于对基于自然语言规范生成的LLM智能合约进行系统性评估。该系统将合同文本解析为结构化模式,生成Solidity代码,并通过编译与安全检查执行自动化质量评估。采用CrewAI风格的智能体团队进行迭代优化,该流水线生成带有完整溯源元数据的结构化产出物。质量评估涵盖五个维度:功能完整性、变量保真度、状态机正确性、业务逻辑保真度以及代码质量,最终聚合为综合评分。该框架支持与基准实现进行配对评估,量化对齐程度并识别系统性错误模式(如逻辑遗漏和状态转换不一致)。这为智能合约合成质量的实证研究提供了可复现的基准,并支持扩展至形式化验证与合规性检查。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
【精益】精益生产与智能制造的联系和支撑
产业智能官
39+阅读 · 2019年9月14日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【PHM】NIST:PHM制造工艺流程技术和指标路线图
产业智能官
11+阅读 · 2019年1月13日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员