Evaluating LLM-Generated ACSL Annotations for Formal Verification - 专知论文

会员服务 ·

0

注释（编程） · 形式化 · 形式化验证 · 大语言模型 · 形式化规约 ·

Evaluating LLM-Generated ACSL Annotations for Formal Verification

翻译：面向形式化验证的LLM生成ACSL注释评估

Arshad Beg,Diarmuid O'Donoghue,Rosemary Monahan

from arxiv, 12 pages. Formal Techniques for Judicious Programming FTfJP-2026 at ECOOP. Conditionally Accepted. Final Revision

Formal specifications are crucial for building verifiable and dependable software systems, yet generating accurate and verifiable specifications for real-world C programs remains challenging. This paper presents an empirical evaluation of automated ACSL annotation generation strategies for C programs, comparing a rule-based Python script, Frama-C's RTE plugin, and three large language models (DeepSeek-V3.2, GPT-5.2, and OLMo 3.1 32B Instruct). The study focuses on one-shot annotation generation, assessing how these approaches perform when directly applied to verification tasks. Using a filtered subset of the CASP benchmark, we evaluate generated annotations through Frama-C's WP plugin with multiple SMT solvers, analyzing proof success rates, solver timeouts, and internal processing time. Our results show that rule-based approaches remain more reliable for verification success, while LLM-based methods exhibit more variable performance. These findings highlight both the current limitations and the potential of LLMs as complementary tools for automated specification generation.

翻译：形式化规约对于构建可验证且可靠的软件系统至关重要，然而为现实世界中的C程序生成准确且可验证的规约仍具挑战。本文对C程序的自动化ACSL注释生成策略进行了实证评估，比较了基于规则的Python脚本、Frama-C的RTE插件以及三种大型语言模型（DeepSeek-V3.2、GPT-5.2和OLMo 3.1 32B Instruct）。本研究聚焦于单次注释生成，评估这些方法直接应用于验证任务时的表现。我们利用CASP基准测试的过滤子集，通过Frama-C的WP插件结合多个SMT求解器对生成的注释进行评估，分析了证明成功率、求解器超时时间及内部处理时间。结果表明，基于规则的方法在验证成功方面更为可靠，而基于LLM的方法则表现出更大的性能波动。这些发现既揭示了当前LLM作为自动规约生成补充工具的局限性，也展现了其潜在价值。

0

相关内容

注释（编程）

注释（编程）

注释（编程）

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

智能合约的形式化验证方法研究综述

专知会员服务

34+阅读 · 2021年5月8日

代码注释自动生成方法综述

专知会员服务

16+阅读 · 2021年1月23日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

ACL 2019 接收论文榜单发布，我们做了可视化分析

ACL 2019 接收论文榜单发布，我们做了可视化分析

机器之心

17+阅读 · 2019年6月13日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Practical Formal Verification for MLIR Programs

Arxiv

0+阅读 · 5月1日

From Language to Logic: Bridging LLMs & Formal Representations for RTL Assertion Generation

Arxiv

0+阅读 · 4月25日

Certified Program Synthesis with a Multi-Modal Verifier

Arxiv

0+阅读 · 4月17日

Towards Personalizing Secure Programming Education with LLM-Injected Vulnerabilities

Arxiv

0+阅读 · 4月15日

Intent-aligned Formal Specification Synthesis via Traceable Refinement

Arxiv

0+阅读 · 4月12日

SQLStructEval: Structural Evaluation of LLM Text-to-SQL Generation

Arxiv

0+阅读 · 4月8日

LLM-as-a-Judge for Time Series Explanations

Arxiv

0+阅读 · 4月2日

Evaluating LLM-Generated ACSL Annotations for Formal Verification

Arxiv

0+阅读 · 4月1日

STELLAR: Structure-guided LLM Assertion Retrieval and Generation for Formal Verification

Arxiv

0+阅读 · 3月19日

VeriEquivBench: An Equivalence Score for Ground-Truth-Free Evaluation of Formally Verifiable Code

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

注释（编程）

形式化验证

大语言模型

形式化规约

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

智能合约的形式化验证方法研究综述

专知会员服务

34+阅读 · 2021年5月8日

代码注释自动生成方法综述

专知会员服务

16+阅读 · 2021年1月23日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

ACL 2019 接收论文榜单发布，我们做了可视化分析

ACL 2019 接收论文榜单发布，我们做了可视化分析

机器之心

17+阅读 · 2019年6月13日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

相关论文

Practical Formal Verification for MLIR Programs

Arxiv

0+阅读 · 5月1日

From Language to Logic: Bridging LLMs & Formal Representations for RTL Assertion Generation

Arxiv

0+阅读 · 4月25日

Certified Program Synthesis with a Multi-Modal Verifier

Arxiv

0+阅读 · 4月17日

Towards Personalizing Secure Programming Education with LLM-Injected Vulnerabilities

Arxiv

0+阅读 · 4月15日

Intent-aligned Formal Specification Synthesis via Traceable Refinement

Arxiv

0+阅读 · 4月12日

SQLStructEval: Structural Evaluation of LLM Text-to-SQL Generation

Arxiv

0+阅读 · 4月8日

LLM-as-a-Judge for Time Series Explanations

Arxiv

0+阅读 · 4月2日

Evaluating LLM-Generated ACSL Annotations for Formal Verification

Arxiv

0+阅读 · 4月1日

STELLAR: Structure-guided LLM Assertion Retrieval and Generation for Formal Verification

Arxiv

0+阅读 · 3月19日

VeriEquivBench: An Equivalence Score for Ground-Truth-Free Evaluation of Formally Verifiable Code

Arxiv

0+阅读 · 3月19日

相关基金

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员