Formal specifications are crucial for building verifiable and dependable software systems, yet generating accurate and verifiable specifications for real-world C programs remains challenging. This paper presents an empirical evaluation of automated ACSL annotation generation strategies for C programs, comparing a rule-based Python script, Frama-C's RTE plugin, and three large language models (DeepSeek-V3.2, GPT-5.2, and OLMo 3.1 32B Instruct). The study focuses on one-shot annotation generation, assessing how these approaches perform when directly applied to verification tasks. Using a filtered subset of the CASP benchmark, we evaluate generated annotations through Frama-C's WP plugin with multiple SMT solvers, analyzing proof success rates, solver timeouts, and internal processing time. Our results show that rule-based approaches remain more reliable for verification success, while LLM-based methods exhibit more variable performance. These findings highlight both the current limitations and the potential of LLMs as complementary tools for automated specification generation.


翻译:形式化规约对于构建可验证且可靠的软件系统至关重要,然而为现实世界中的C程序生成准确且可验证的规约仍具挑战。本文对C程序的自动化ACSL注释生成策略进行了实证评估,比较了基于规则的Python脚本、Frama-C的RTE插件以及三种大型语言模型(DeepSeek-V3.2、GPT-5.2和OLMo 3.1 32B Instruct)。本研究聚焦于单次注释生成,评估这些方法直接应用于验证任务时的表现。我们利用CASP基准测试的过滤子集,通过Frama-C的WP插件结合多个SMT求解器对生成的注释进行评估,分析了证明成功率、求解器超时时间及内部处理时间。结果表明,基于规则的方法在验证成功方面更为可靠,而基于LLM的方法则表现出更大的性能波动。这些发现既揭示了当前LLM作为自动规约生成补充工具的局限性,也展现了其潜在价值。

0
下载
关闭预览

相关内容

如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
专知会员服务
34+阅读 · 2021年5月8日
专知会员服务
16+阅读 · 2021年1月23日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
37+阅读 · 2020年8月8日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
ACL 2019 接收论文榜单发布,我们做了可视化分析
机器之心
17+阅读 · 2019年6月13日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员