Proof autoformalization aims to translate a mathematical informal proof written in natural language into a formal proof in a formal language such as Lean~4. Several works have developed LLM-based models for proof autoformalization. However, existing evaluations have typically focused on translating well-formed informal proofs from curated datasets. We argue that a robust proof autoformalizer must remain faithful even for informal proofs that diverge from these idealized ones, and we present the first study on the robustness of proof autoformalization models. We formulate two categories of perturbations and evaluate robustness under each: a global perturbation paraphrases the informal proof in a different style, under which the formalization should remain consistent; a local perturbation alters a value, symbol, or proof step, possibly in a counterfactual way, and a robust formalization should faithfully reflect the perturbation rather than reverting to the original one or inferring a different one on its own. We build a benchmark with both perturbations on miniF2F and MATH-500, and automatically measure how stable a proof autoformalization's correctness is under global perturbations and how faithfully its output reflects local perturbations. We evaluate seven recent models, all of which are sensitive to global perturbations and mostly fail to remain faithful under local perturbations. Code and data are available via https://github.com/ucr-rai/robust-proof-autoformalization.


翻译:证明自动形式化旨在将自然语言编写的非形式化数学证明转换为Lean~4等形式语言中的形式化证明。已有若干研究开发了基于LLM的证明自动形式化模型。然而,现有评估通常聚焦于从精心整理的数据集中翻译结构良好的非形式化证明。我们认为,一个鲁棒的证明自动形式化器必须对偏离这些理想化情形的不规范非形式化证明也能保持忠实性,并首次开展了证明自动形式化模型鲁棒性研究。我们定义了两类扰动并评估其鲁棒性:全局扰动以不同风格改写非形式化证明,在此扰动下形式化结果应保持一致性;局部扰动改变数值、符号或证明步骤(可能以反事实方式),鲁棒的形式化应忠实反映该扰动,而非自行回退至原始结论或推断出其他结果。我们构建了基于miniF2F和MATH-500的扰动基准测试,自动衡量证明自动形式化在全局扰动下正确性的稳定性,以及其输出反映局部扰动的忠实性。评估了七种近期模型,发现所有模型均对全局扰动敏感,且大部分无法在局部扰动下保持忠实性。代码与数据可通过https://github.com/ucr-rai/robust-proof-autoformalization获取。

0
下载
关闭预览

相关内容

GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
专知会员服务
144+阅读 · 2021年3月17日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员