MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics - 专知论文

会员服务 ·

0

数学 · 基准 · 基准测试 · 系统 · 构建 ·

MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics

翻译：MathlibLemma：形式数学中的民间引理生成与基准测试

Xinyu Liu,Zixuan Xie,Amir Moeini,Claire Chen,Shuze Daniel Liu,Yu Meng,Aidong Zhang,Shangtong Zhang

While the ecosystem of Lean and Mathlib has enjoyed celebrated success in formal mathematical reasoning with the help of large language models (LLMs), the absence of many folklore lemmas in Mathlib remains a persistent barrier that limits Lean's usability as an everyday tool for mathematicians like LaTeX or Maple. To address this, we introduce MathlibLemma, the first LLM-based multi-agent system to automate the discovery and formalization of mathematical folklore lemmas. This framework constitutes our primary contribution, proactively mining the missing connective tissue of mathematics. Its efficacy is demonstrated by the production of a verified library of folklore lemmas, a subset of which has already been formally merged into the latest build of Mathlib, thereby validating the system's real-world utility and alignment with expert standards. Leveraging this pipeline, we further construct the MathlibLemma benchmark, a suite of 4,028 type-checked Lean statements spanning a broad range of mathematical domains. By transforming the role of LLMs from passive consumers to active contributors, this work establishes a constructive methodology for the self-evolution of formal mathematical libraries.

翻译：尽管在大型语言模型（LLM）的辅助下，Lean 与 Mathlib 生态系统在形式数学推理领域取得了显著成功，但 Mathlib 中仍缺失大量民间引理，这一持续存在的障碍限制了 Lean 作为日常数学工具（如 LaTeX 或 Maple）的可用性。为解决此问题，我们提出了 MathlibLemma——首个基于 LLM 的多智能体系统，用于自动化发现与形式化数学民间引理。该框架构成了我们的核心贡献，能够主动挖掘数学中缺失的“连接组织”。其有效性通过一个已验证的民间引理库得以证明，其中部分引理已正式合并至 Mathlib 的最新构建版本，从而验证了该系统在现实场景中的实用性与专家标准的一致性。基于此流程，我们进一步构建了 MathlibLemma 基准测试集——包含 4,028 个经过类型检查的 Lean 命题，涵盖广泛的数学领域。通过将 LLM 的角色从被动使用者转变为主动贡献者，本研究为形式数学库的自我演进建立了一种建设性方法论。

0

相关内容

数学是关于数量、结构、变化等主题的探索。

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

专知

17+阅读 · 2020年7月10日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

莫比乌斯不变空间上复合算子若干问题

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

椭圆曲线和代数K-理论相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge

Arxiv

0+阅读 · 3月1日

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

Arxiv

0+阅读 · 2月25日

LogicGraph : Benchmarking Multi-Path Logical Reasoning via Neuro-Symbolic Generation and Verification

Arxiv

0+阅读 · 2月24日

Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

Arxiv

0+阅读 · 2月24日

VeriSoftBench: Repository-Scale Formal Verification Benchmarks for Lean

Arxiv

0+阅读 · 2月20日

Proof-RM: A Scalable and Generalizable Reward Model for Math Proof

Arxiv

0+阅读 · 2月19日

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

Arxiv

0+阅读 · 2月12日

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

Arxiv

0+阅读 · 2月10日

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

Arxiv

0+阅读 · 2月10日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

5+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

6+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

10+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

21+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

10+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

9+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

专知

17+阅读 · 2020年7月10日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge

Arxiv

0+阅读 · 3月1日

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

Arxiv

0+阅读 · 2月25日

LogicGraph : Benchmarking Multi-Path Logical Reasoning via Neuro-Symbolic Generation and Verification

Arxiv

0+阅读 · 2月24日

Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

Arxiv

0+阅读 · 2月24日

VeriSoftBench: Repository-Scale Formal Verification Benchmarks for Lean

Arxiv

0+阅读 · 2月20日

Proof-RM: A Scalable and Generalizable Reward Model for Math Proof

Arxiv

0+阅读 · 2月19日

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

Arxiv

0+阅读 · 2月12日

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

Arxiv

0+阅读 · 2月10日

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

Arxiv

0+阅读 · 2月10日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

相关基金

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

莫比乌斯不变空间上复合算子若干问题

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

椭圆曲线和代数K-理论相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员