Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, but a unified methodology for cross-paradigm evaluation is lacking. Existing benchmarks test only individual languages/tools (e.g., Dafny, Verus, and Lean) and each covers very different tasks, so the performance numbers are not directly comparable. We address this gap with AlgoVeri, a benchmark that evaluates vericoding of $77$ classical algorithms in Dafny, Verus, and Lean. By enforcing identical functional contracts, AlgoVeri reveals critical capability gaps in verification systems. While frontier models achieve tractable success in Dafny ($40.3$% for Gemini-3 Flash), where high-level abstractions and SMT automation simplify the workflow, performance collapses under the systems-level memory constraints of Verus ($24.7$%) and the explicit proof construction required by Lean (7.8%). Beyond aggregate metrics, we uncover a sharp divergence in test-time compute dynamics: Gemini-3 effectively utilizes iterative repair to boost performance (e.g., tripling pass rates in Dafny), whereas GPT-OSS saturates early. Finally, our error analysis shows that language design affects the refinement trajectory: while Dafny allows models to focus on logical correctness, Verus and Lean trap models in persistent syntactic and semantic barriers. All data and evaluation code can be found at https://github.com/haoyuzhao123/algoveri.


翻译:Vericoding指从严格规范生成形式化验证代码。最近的AI模型在验证编码方面展现出潜力,但缺乏跨范式评估的统一方法论。现有基准仅测试单个语言/工具(例如Dafny、Verus和Lean),且各自覆盖差异显著的任务,因此性能数据无法直接比较。我们通过AlgoVeri填补这一空白,该基准在Dafny、Verus和Lean中评估77个经典算法的验证编码。通过强制实施相同的功能契约,AlgoVeri揭示了验证系统中的关键能力差距。虽然前沿模型在Dafny中取得了可处理的成功(Gemini-3 Flash为40.3%),其中高级抽象和SMT自动化简化了工作流程,但在Verus的系统级内存约束(24.7%)和Lean所需的显式证明构造(7.8%)下性能急剧下降。除总体指标外,我们发现了测试时计算动态的显著差异:Gemini-3有效利用迭代修复提升性能(例如在Dafny中通过率提升三倍),而GPT-OSS则过早饱和。最后,我们的错误分析表明语言设计影响精化轨迹:Dafny使模型能够聚焦于逻辑正确性,而Verus和Lean将模型困于持续的语法和语义障碍。所有数据和评估代码可在https://github.com/haoyuzhao123/algoveri获取。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【AAAI2023】深度神经网络的可解释性验证
专知会员服务
49+阅读 · 2022年12月6日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员