We present Ax-Prover, a multi-agent system for automated theorem proving in Lean that can solve problems across diverse scientific domains and operate either autonomously or collaboratively with human experts. To achieve this, Ax-Prover approaches scientific problem solving through formal proof generation, a process that demands both creative reasoning and strict syntactic rigor. Ax-Prover meets this challenge by equipping Large Language Models (LLMs), which provide knowledge and reasoning, with Lean tools via the Model Context Protocol (MCP), which ensure formal correctness. To evaluate its performance as an autonomous prover, we benchmark our approach against frontier LLMs and specialized prover models on two public math benchmarks and on two Lean benchmarks we introduce in the fields of abstract algebra and quantum theory. On public datasets, Ax-Prover is competitive with state-of-the-art provers, while it largely outperforms them on the new benchmarks. This shows that, unlike specialized systems that struggle to generalize, our tool-based agentic theorem prover approach offers a generalizable methodology for formal verification across diverse scientific domains. Furthermore, we demonstrate Ax-Prover's assistant capabilities in a practical use case, showing how it enabled an expert mathematician to formalize the proof of a complex cryptography theorem.


翻译:我们提出Ax-Prover,一个面向Lean的自动化定理证明多智能体系统,能够解决跨多个科学领域的问题,既可自主运行,也可与人类专家协作。为实现这一目标,Ax-Prover通过形式化证明生成的方式来处理科学问题,这一过程既需要创造性推理,也要求严格的句法严谨性。Ax-Prover通过模型上下文协议(MCP)为大型语言模型(LLMs)配备Lean工具来应对这一挑战——LLMs提供知识与推理能力,而MCP确保形式化正确性。为评估其作为自主证明器的性能,我们在两个公开数学基准测试以及两个我们新引入的抽象代数与量子理论领域Lean基准测试上,将我们的方法与前沿LLMs及专用证明器模型进行对比。在公开数据集上,Ax-Prover与最先进的证明器表现相当;而在新基准测试上,其性能大幅超越后者。这表明,与难以泛化的专用系统不同,我们基于工具的智能体定理证明方法为跨多个科学领域的形式化验证提供了一种可泛化的方法论。此外,我们通过一个实际用例展示了Ax-Prover的辅助能力,说明它如何帮助一位数学家专家完成一个复杂密码学定理的形式化证明。

0
下载
关闭预览

相关内容

深度学习在数学推理中的应用综述
专知会员服务
48+阅读 · 2022年12月25日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 44分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 58分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
深度学习在数学推理中的应用综述
专知会员服务
48+阅读 · 2022年12月25日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员