We present FormalProofBench, a private benchmark designed to evaluate whether AI models can produce formally verified mathematical proofs at the graduate level. Each task pairs a natural-language problem with a Lean~4 formal statement, and a model must output a Lean proof accepted by the Lean 4 checker. FormalProofBench targets advanced undergraduate and graduate mathematics, with problems drawn from qualifying exams and standard textbooks across topics including analysis, algebra, probability, and logic. We evaluate a range of frontier models with an agentic harness, and find that the best-performing foundation model achieves 33.5% accuracy, with performance dropping rapidly after that. In addition to the accuracy numbers, we also provide empirical analysis of tool-use, failure modes, cost and latency, thereby providing a thorough evaluation of the formal-theorem proving abilities of frontier models.


翻译:我们提出了FormalProofBench,这是一个私有基准测试,旨在评估AI模型能否生成经过形式化验证的研究生级别数学证明。每个任务对应一个自然语言问题及其在Lean 4中的形式化表述,模型需输出能被Lean 4检查器接受的证明代码。FormalProofBench聚焦于高阶本科及研究生数学,题目源自资格考试与标准教材,涵盖分析、代数、概率与逻辑等方向。我们通过智能体框架评估了一系列前沿模型,发现最佳基础模型的准确率为33.5%,此后模型性能迅速下降。除准确率数据外,我们还对工具使用、失败模式、成本与延迟进行了实证分析,从而对前沿模型的形式化定理证明能力提供了全面评估。

0
下载
关闭预览

相关内容

专知会员服务
34+阅读 · 2021年5月8日
专知会员服务
122+阅读 · 2021年1月31日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
论文浅尝 | 为基于知识库的问答构建形式查询生成
开放知识图谱
10+阅读 · 2019年3月8日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
专知会员服务
34+阅读 · 2021年5月8日
专知会员服务
122+阅读 · 2021年1月31日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员