Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs - 专知论文

会员服务 ·

0

形式化 · 定理证明 · 理论计算机科学 · CVPR 2022 · 计算机科学 ·

Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

翻译：Lean遇见理论计算机科学：形式化与非形式化配对定理证明挑战的可规模化综合

Terry Jingchen Zhang,Wenyuan Jiang,Rongchuan Liu,Yisong Wang,Junran Yang,Ning Wang,Nicole Ni,Yinya Huang,Mrinmaya Sachan

from arxiv, Accepted to AI4MATH@ICML2025

Formal theorem proving (FTP) has emerged as a critical foundation for evaluating the reasoning capabilities of large language models, enabling automated verification of mathematical proofs at scale. However, progress has been constrained by limited datasets due to the high cost of manual curation and the scarcity of challenging problems with verified formal-informal correspondences. We propose leveraging theoretical computer science (TCS) as a scalable source of rigorous proof problems, where algorithmic definitions enable automated generation of arbitrarily many challenging theorem-proof pairs. We demonstrate this approach on two TCS domains: Busy Beaver problems, which involve proving bounds on Turing machine halting behavior, and Mixed Boolean Arithmetic problems, which combine logical and arithmetic reasoning. Our framework automatically synthesizes problems with parallel formal (Lean4) and informal (Markdown) specifications, creating a scalable pipeline for generating verified proof challenges. Evaluation on frontier models reveals substantial gaps in automated theorem proving: while DeepSeekProver-V2-671B achieves 57.5\% success on Busy Beaver problems, it manages only 12\% on Mixed Boolean Arithmetic problems. These results highlight the difficulty of long-form proof generation even for problems that are computationally easy to verify, demonstrating the value of TCS domains for advancing automated reasoning research.

翻译：形式化定理证明（FTP）已成为评估大语言模型推理能力的关键基础，实现了数学证明的规模化自动验证。然而，由于人工标注成本高昂，且具有已验证形式化-非形式化对应关系的挑战性问题稀缺，该领域的进展受到有限数据集的制约。我们提出将理论计算机科学（TCS）作为严谨证明问题的可规模化来源，其中算法定义能够自动生成任意数量的挑战性定理-证明对。我们在两个TCS领域展示了该方法：忙碌海狸问题（涉及图灵机停机行为的界限证明）和混合布尔算术问题（结合逻辑与算术推理）。我们的框架自动合成具有并行形式化（Lean4）与非形式化（Markdown）规范的问题，构建了生成已验证证明挑战的可规模化流水线。对前沿模型的评估揭示了自动化定理证明中的显著差距：DeepSeekProver-V2-671B在忙碌海狸问题上达到57.5%的成功率，但在混合布尔算术问题上仅完成12%。这些结果凸显了长形式证明生成的难度——即便对于计算上易于验证的问题也是如此，从而证明了TCS领域在推进自动化推理研究中的价值。

0

相关内容

形式化

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

专知会员服务

21+阅读 · 2025年2月14日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

专知会员服务

36+阅读 · 2024年2月28日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

57+阅读 · 2023年8月28日

【MIT经典书】计算机科学数学，918页pdf

专知会员服务

129+阅读 · 2021年6月23日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【IJCAI 2019】可扩展的深度学习:从理论到实践（Scalable Deep Learning: from theory to practice），Decebal Constantin Mocanu，Elena Mocanu

【IJCAI 2019】可扩展的深度学习:从理论到实践（Scalable Deep Learning: from theory to practice），Decebal Constantin Mocanu，Elena Mocanu

专知会员服务

16+阅读 · 2019年8月12日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

专知

11+阅读 · 2019年1月27日

互联网与数学文化传播研讨会

国家自然科学基金

1+阅读 · 2018年9月23日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

金融数学交叉融合项目

国家自然科学基金

0+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

IsabeLLM: Automated Theorem Proving Applied to Formally Verifying Consensus

Arxiv

0+阅读 · 6月16日

Formalizing all indexed mathematics as a benchmark for general reasoning, with the example of implementing dilatations of categories

Arxiv

0+阅读 · 6月16日

EconCSLib: A Lean Library for Computational Economics and AI-Assisted Research

Arxiv

0+阅读 · 6月15日

Formalize Once, Edit the Rest: Efficient Lean-Based Answer Selection for Math Reasoning

Arxiv

0+阅读 · 6月14日

Flood and Harvest: The Provable Necessity of Trivia for Generating Valuable Mathematics via the Lens of Language Generation in the Limit

Arxiv

0+阅读 · 6月12日

Formalizing all indexed mathematics as a benchmark for general reasoning, with the example of implementing dilatations of categories

Arxiv

0+阅读 · 6月2日

Learning to Reason with Insight for Informal Theorem Proving

Arxiv

0+阅读 · 5月29日

CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems

Arxiv

0+阅读 · 5月14日

Discovering New Theorems via LLMs with In-Context Proof Learning in Lean

Arxiv

0+阅读 · 5月6日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

VIP会员

文章信息

相关主题

理论计算机科学

计算机科学

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

专知会员服务

21+阅读 · 2025年2月14日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

专知会员服务

36+阅读 · 2024年2月28日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

57+阅读 · 2023年8月28日

【MIT经典书】计算机科学数学，918页pdf

专知会员服务

129+阅读 · 2021年6月23日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【IJCAI 2019】可扩展的深度学习:从理论到实践（Scalable Deep Learning: from theory to practice），Decebal Constantin Mocanu，Elena Mocanu

【IJCAI 2019】可扩展的深度学习:从理论到实践（Scalable Deep Learning: from theory to practice），Decebal Constantin Mocanu，Elena Mocanu

专知会员服务

16+阅读 · 2019年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

专知

11+阅读 · 2019年1月27日

相关论文

IsabeLLM: Automated Theorem Proving Applied to Formally Verifying Consensus

Arxiv

0+阅读 · 6月16日

Formalizing all indexed mathematics as a benchmark for general reasoning, with the example of implementing dilatations of categories

Arxiv

0+阅读 · 6月16日

EconCSLib: A Lean Library for Computational Economics and AI-Assisted Research

Arxiv

0+阅读 · 6月15日

Formalize Once, Edit the Rest: Efficient Lean-Based Answer Selection for Math Reasoning

Arxiv

0+阅读 · 6月14日

Flood and Harvest: The Provable Necessity of Trivia for Generating Valuable Mathematics via the Lens of Language Generation in the Limit

Arxiv

0+阅读 · 6月12日

Formalizing all indexed mathematics as a benchmark for general reasoning, with the example of implementing dilatations of categories

Arxiv

0+阅读 · 6月2日

Learning to Reason with Insight for Informal Theorem Proving

Arxiv

0+阅读 · 5月29日

CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems

Arxiv

0+阅读 · 5月14日

Discovering New Theorems via LLMs with In-Context Proof Learning in Lean

Arxiv

0+阅读 · 5月6日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

相关基金

互联网与数学文化传播研讨会

国家自然科学基金

1+阅读 · 2018年9月23日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

金融数学交叉融合项目

国家自然科学基金

0+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员