MINIF2F-DAFNY：基于LLM引导与自动主动验证的数学定理证明 (MINIF2F-DAFNY: LLM-Guided Mathematical Theorem Proving via Auto-Active Verification) - 专知论文

会员服务 ·

0

数学 · 定理证明 · 自动化 · 大语言模型 · 软件 ·

MINIF2F-DAFNY: LLM-Guided Mathematical Theorem Proving via Auto-Active Verification

翻译：MINIF2F-DAFNY：基于LLM引导与自动主动验证的数学定理证明

Mantas Baksys,Stefan Zetzsche,Olivier Bouissou,Sean B. Holden

LLMs excel at reasoning, but validating their steps remains challenging. Formal verification offers a solution through mechanically checkable proofs. Interactive theorem provers (ITPs) dominate mathematical reasoning but require detailed low-level proof steps, while auto-active verifiers offer automation but focus on software verification. Recent work has begun bridging this divide by evaluating LLMs for software verification in ITPs, but the complementary direction--LLMs for mathematical theorem proving in auto-active verifiers--remains unexplored. We present MINIF2F-DAFNY, the first translation of the widely-used mathematical benchmark miniF2F to an auto-active verifier: Dafny. We find that Dafny's automation alone solves 39-44% of problems with empty proofs, whereas many require substantial proof guidance in ITPs. For remaining problems, we evaluate 7 off-the-shelf LLMs, achieving 55.7% success with the best model (Claude Sonnet 4.5) using modest resources. These results demonstrate effective division of labor: LLMs provide high-level guidance while automation handles low-level details. Our benchmark can be found on GitHub at http://github.com/dafny-lang/miniF2F .

翻译：大型语言模型（LLM）在推理方面表现出色，但验证其推理步骤仍具挑战性。形式化验证通过提供机器可检查的证明提供了一种解决方案。交互式定理证明器（ITP）在数学推理领域占主导地位，但需要详细、低层次的证明步骤；而自动主动验证器虽能提供自动化支持，但其主要关注软件验证。近期研究开始通过评估LLM在ITP中进行软件验证来弥合这一鸿沟，但相反方向——利用LLM在自动主动验证器中进行数学定理证明——仍未得到探索。我们提出了MINIF2F-DAFNY，这是首次将广泛使用的数学基准测试miniF2F翻译到自动主动验证器Dafny中。我们发现，仅凭Dafny的自动化能力，在无需提供证明内容的情况下即可解决39-44%的问题，而这些问题中的许多在ITP中需要大量的证明指导。对于剩余问题，我们评估了7个现成的LLM，在使用适度资源的情况下，最佳模型（Claude Sonnet 4.5）取得了55.7%的成功率。这些结果展示了有效的分工：LLM提供高层次指导，而自动化处理低层次细节。我们的基准测试可在GitHub上找到：http://github.com/dafny-lang/miniF2F。

0

相关内容

数学是关于数量、结构、变化等主题的探索。

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

专知会员服务

21+阅读 · 2025年2月14日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

55+阅读 · 2024年11月17日

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

专知会员服务

36+阅读 · 2024年2月28日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Proof-RM: A Scalable and Generalizable Reward Model for Math Proof

Arxiv

0+阅读 · 2月19日

TensorCommitments: A Lightweight Verifiable Inference for Language Models

Arxiv

0+阅读 · 2月13日

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

Arxiv

0+阅读 · 2月12日

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Arxiv

0+阅读 · 2月10日

Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4

Arxiv

0+阅读 · 2月9日

MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation

Arxiv

0+阅读 · 2月4日

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Arxiv

0+阅读 · 2月2日

ATLAS: Automated Toolkit for Large-Scale Verified Code Synthesis

Arxiv

0+阅读 · 2月2日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月30日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月25日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

专知会员服务

21+阅读 · 2025年2月14日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

55+阅读 · 2024年11月17日

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

专知会员服务

36+阅读 · 2024年2月28日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Proof-RM: A Scalable and Generalizable Reward Model for Math Proof

Arxiv

0+阅读 · 2月19日

TensorCommitments: A Lightweight Verifiable Inference for Language Models

Arxiv

0+阅读 · 2月13日

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

Arxiv

0+阅读 · 2月12日

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Arxiv

0+阅读 · 2月10日

Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4

Arxiv

0+阅读 · 2月9日

MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation

Arxiv

0+阅读 · 2月4日

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Arxiv

0+阅读 · 2月2日

ATLAS: Automated Toolkit for Large-Scale Verified Code Synthesis

Arxiv

0+阅读 · 2月2日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月30日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月25日

相关基金

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员