Formal mathematics libraries are rapidly expanding, creating a growing need to refactor verified proofs for maintainability and to improve training data quality for neural provers. However, scalable proof optimization is hindered by heterogeneous and heuristically specified objectives, scarce data, and high training and inference costs. To overcome these challenges, we introduce ImProver 2, a neurosymbolic framework for automated proof optimization in Lean 4. ImProver 2 combines a data-efficient expert-iteration pipeline with a scaffold that exposes formal structure alongside lightweight informal abstractions. We further introduce a suite of metrics capturing structural proof properties. Using ImProver 2, we train a 7B-parameter model that outperforms orders-of-magnitude larger models within the same model family, and is competitive with mid-tier frontier models across metrics. We additionally demonstrate that our neurosymbolic scaffold significantly improves performance across both small and frontier models. We show that with proper scaffolding and training, small models can effectively restructure research-level proofs over complex and varied metrics, matching substantially larger systems and establishing proof optimization as a scalable, learnable task.


翻译:形式化数学库正在快速扩展,由此产生了对已验证证明进行重构以提升可维护性、以及改善神经证明器训练数据质量的持续需求。然而,可扩展的证明优化受到异构且启发式设定的目标、稀缺数据以及高昂的训练与推理成本的制约。为应对这些挑战,我们提出了ImProver 2——一个面向Lean 4中自动证明优化的神经符号框架。ImProver 2将数据高效的专家迭代流程与一个能够暴露形式化结构并辅以轻量级非形式化抽象的支架相结合。我们进一步引入了一套度量结构证明属性的指标。利用ImProver 2,我们训练了一个70亿参数模型,其在同一模型家族中性能超越了数量级更大的模型,并在各项指标上与中端前沿模型具有竞争力。我们还证明了我们的神经符号支架能够显著提升小型及前沿模型的性能。研究表明,通过适当的支架与训练,小型模型能够基于复杂且多样化的指标有效地重构研究级证明,与规模大得多的系统相匹敌,并将证明优化确立为一项可扩展、可学习的任务。

0
下载
关闭预览

相关内容

BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
2+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
2+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
2+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员