While statement autoformalization has advanced rapidly, full-theorem autoformalization remains largely unexplored. Existing iterative refinement methods in statement autoformalization typicall improve isolated aspects of formalization, such as syntactic correctness, but struggle to jointly optimizing multiple quality dimensions, which is critical for full-theorem autoformalization. We introduce a reference-free iterative monotonic process for full-theorem autoformalization that leverages complementary feedback from theorem provers and LLM-based judges, without access to ground-truth proofs or existing formalizations at inference time. Our approach optimizes a masked composite objective over Formal Validity, Logical Preservation, Mathematical Consistency, and Formal Quality, guided by a responsiveness map that indicates how different LLMs acting as different roles preferentially improve each dimension. We further propose an acceptance policy that guarantees certified monotonic improvement, and provide conditions ensuring convergence and termination. Empirical experiments demonstrate the proposed process enables simultaneous improvement across multiple dimensions, achieving 93.44% formal validity and a 78.22% overall score on miniF2F, and 44.09% formal validity and a 29.79% overall score on ProofNet.


翻译:尽管陈述自动形式化技术发展迅速,但全定理自动形式化领域仍鲜有探索。现有陈述自动形式化中的迭代精炼方法通常仅能改善形式化的孤立方面(如语法正确性),难以协同优化多个质量维度,而这对于全定理自动形式化至关重要。我们提出一种用于全定理自动形式化的无参考迭代单调过程,该方法在推理阶段无需真实证明或现有形式化结果的情况下,综合利用定理证明器和基于LLM的评判器提供的互补反馈。我们的方法通过响应映射图(指示不同角色LLM对各维度的优先改进倾向)的引导,对形式有效性、逻辑保持性、数学一致性及形式质量构成的掩码复合目标进行优化。我们进一步提出可保证经认证单调改进的接受策略,并提供确保收敛性与终止性的条件。实证实验表明,所提过程能实现多维度同步改进:在miniF2F数据集上达到93.44%的形式有效性与78.22%的综合得分,在ProofNet数据集上达到44.09%的形式有效性与29.79%的综合得分。

0
下载
关闭预览

相关内容

无人自主系统能力边界参数自适应判别方法
专知会员服务
19+阅读 · 2024年10月26日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
告别调参,AutoML新书221页免费下载
新智元
11+阅读 · 2018年10月16日
告别调参,AutoML新书发布
专知
14+阅读 · 2018年10月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员