Reliable verification of proofs remains a bottleneck for training and evaluating AI systems on hard mathematical reasoning. Fully formal proofs, in languages like Lean, are easy to verify because they are unambiguous and modular. Most proofs, particularly those written by AI systems, have neither property, and translating them into formal languages remains challenging in many frontier math settings. We propose Pseudo-Formalization (PF), a proof format that captures the modularity and precision of formal proofs while retaining the flexibility of natural language. A Pseudo-Formal proof is decomposed into self-contained modules, each stating its premises, conclusion, and proof in natural language. To verify the correctness of a regular natural language proof, an LLM translates it to Pseudo-Formal and then verifies each module independently, an algorithm we call Block Verification (BV). We evaluate PF+BV on two benchmarks spanning olympiad and research-level mathematics, where it pareto-dominates LLM-as-judge baselines on error-finding precision and recall. To support future work, we release our research-level proof verification benchmark ArxivMathGradingBench.


翻译:对证明的可靠验证仍是训练和评估人工智能系统处理复杂数学推理的瓶颈。完全形式化的证明(如Lean语言)因其无歧义性和模块化特性而易于验证。然而,绝大多数证明(尤其是人工智能系统生成的证明)均不具备这两种特性,且在诸多前沿数学场景中,将其转化为形式化语言仍具挑战性。我们提出"伪形式化"(PF)这一证明格式,既保留了形式化证明的模块化与精确性,又保持了自然语言的灵活性。伪形式化证明被分解为自包含模块,每个模块以自然语言陈述其前提、结论及证明过程。为验证常规自然语言证明的正确性,大语言模型将其转化为伪形式化格式,再对各模块进行独立验证——我们将此算法称为"分块验证"(BV)。我们在涵盖奥数级与研究级数学的两个基准测试中评估了PF+BV方法,其在错误发现的精确率与召回率上均帕累托优于LLM作为评判者的基线方法。为支持后续研究,我们发布了研究级数学证明验证基准数据集ArxivMathGradingBench。

0
下载
关闭预览

相关内容

工程可信赖的机器学习运维——基于零知识证明
专知会员服务
9+阅读 · 2025年5月27日
战略战斗游戏中基于模糊XAI的形式化验证
专知会员服务
32+阅读 · 2023年11月1日
专知会员服务
34+阅读 · 2021年5月8日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
【推荐】伪标签学习导论 - 一种半监督学习方法
机器学习研究会
12+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
0+阅读 · 13分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员