Monotonic Reference-Free Refinement for Autoformalization - 专知论文

会员服务 ·

0

形式化 · 无参考 · 有效性 · 得分 · 数据集 ·

Monotonic Reference-Free Refinement for Autoformalization

翻译：单调无参考精炼方法在自动形式化中的应用

Lan Zhang,Marco Valentino,André Freitas

from arxiv, Work in progress

While statement autoformalization has advanced rapidly, full-theorem autoformalization remains largely unexplored. Existing iterative refinement methods in statement autoformalization typicall improve isolated aspects of formalization, such as syntactic correctness, but struggle to jointly optimizing multiple quality dimensions, which is critical for full-theorem autoformalization. We introduce a reference-free iterative monotonic process for full-theorem autoformalization that leverages complementary feedback from theorem provers and LLM-based judges, without access to ground-truth proofs or existing formalizations at inference time. Our approach optimizes a masked composite objective over Formal Validity, Logical Preservation, Mathematical Consistency, and Formal Quality, guided by a responsiveness map that indicates how different LLMs acting as different roles preferentially improve each dimension. We further propose an acceptance policy that guarantees certified monotonic improvement, and provide conditions ensuring convergence and termination. Empirical experiments demonstrate the proposed process enables simultaneous improvement across multiple dimensions, achieving 93.44% formal validity and a 78.22% overall score on miniF2F, and 44.09% formal validity and a 29.79% overall score on ProofNet.

翻译：尽管陈述自动形式化技术发展迅速，但全定理自动形式化领域仍鲜有探索。现有陈述自动形式化中的迭代精炼方法通常仅能改善形式化的孤立方面（如语法正确性），难以协同优化多个质量维度，而这对于全定理自动形式化至关重要。我们提出一种用于全定理自动形式化的无参考迭代单调过程，该方法在推理阶段无需真实证明或现有形式化结果的情况下，综合利用定理证明器和基于LLM的评判器提供的互补反馈。我们的方法通过响应映射图（指示不同角色LLM对各维度的优先改进倾向）的引导，对形式有效性、逻辑保持性、数学一致性及形式质量构成的掩码复合目标进行优化。我们进一步提出可保证经认证单调改进的接受策略，并提供确保收敛性与终止性的条件。实证实验表明，所提过程能实现多维度同步改进：在miniF2F数据集上达到93.44%的形式有效性与78.22%的综合得分，在ProofNet数据集上达到44.09%的形式有效性与29.79%的综合得分。

0

相关内容

形式化

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

专知会员服务

21+阅读 · 2025年2月14日

无人自主系统能力边界参数自适应判别方法

无人自主系统能力边界参数自适应判别方法

专知会员服务

20+阅读 · 2024年10月26日

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

专知会员服务

50+阅读 · 2023年11月21日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【Google大脑】AutoML-Zero: 从无到有演化机器学习算法，Evolving Machine Learning

专知会员服务

26+阅读 · 2020年3月11日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

自动结构变分推理，Automatic structured variational inference

自动结构变分推理，Automatic structured variational inference

专知会员服务

41+阅读 · 2020年2月10日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

中国人工智能学会

48+阅读 · 2019年5月3日

告别调参，AutoML新书221页免费下载

告别调参，AutoML新书221页免费下载

新智元

11+阅读 · 2018年10月16日

告别调参，AutoML新书发布

告别调参，AutoML新书发布

专知

14+阅读 · 2018年10月16日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下自动化制造单元前摄式/反应式调度研究

国家自然科学基金

2+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

抗干扰的农作物种植模式自动提取方法

国家自然科学基金

0+阅读 · 2014年12月31日

FAMOSE: A ReAct Approach to Automated Feature Discovery

Arxiv

0+阅读 · 2月19日

Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning

Arxiv

0+阅读 · 2月19日

Stabilizing Test-Time Adaptation of High-Dimensional Simulation Surrogates via D-Optimal Statistics

Arxiv

0+阅读 · 2月17日

Refine Now, Query Fast: A Decoupled Refinement Paradigm for Implicit Neural Fields

Arxiv

0+阅读 · 2月16日

Controlled Self-Evolution for Algorithmic Code Optimization

Arxiv

0+阅读 · 2月12日

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Arxiv

0+阅读 · 2月10日

Automatic regularization parameter choice for tomography using a double model approach

Arxiv

0+阅读 · 2月10日

Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner

Arxiv

0+阅读 · 2月4日

Self-Foveate: Enhancing Diversity and Difficulty of Synthesized Instructions from Unsupervised Text via Multi-Level Foveation

Arxiv

0+阅读 · 2月3日

Correspondence-Free, Function-Based Sim-to-Real Learning for Deformable Surface Control

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

专知会员服务

21+阅读 · 2025年2月14日

无人自主系统能力边界参数自适应判别方法

无人自主系统能力边界参数自适应判别方法

专知会员服务

20+阅读 · 2024年10月26日

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

专知会员服务

50+阅读 · 2023年11月21日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【Google大脑】AutoML-Zero: 从无到有演化机器学习算法，Evolving Machine Learning

专知会员服务

26+阅读 · 2020年3月11日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

自动结构变分推理，Automatic structured variational inference

自动结构变分推理，Automatic structured variational inference

专知会员服务

41+阅读 · 2020年2月10日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

【综述】自动机器学习AutoML最新65页综述，带你了解最新进展

中国人工智能学会

48+阅读 · 2019年5月3日

告别调参，AutoML新书221页免费下载

告别调参，AutoML新书221页免费下载

新智元

11+阅读 · 2018年10月16日

告别调参，AutoML新书发布

告别调参，AutoML新书发布

专知

14+阅读 · 2018年10月16日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

FAMOSE: A ReAct Approach to Automated Feature Discovery

Arxiv

0+阅读 · 2月19日

Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning

Arxiv

0+阅读 · 2月19日

Stabilizing Test-Time Adaptation of High-Dimensional Simulation Surrogates via D-Optimal Statistics

Arxiv

0+阅读 · 2月17日

Refine Now, Query Fast: A Decoupled Refinement Paradigm for Implicit Neural Fields

Arxiv

0+阅读 · 2月16日

Controlled Self-Evolution for Algorithmic Code Optimization

Arxiv

0+阅读 · 2月12日

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

Arxiv

0+阅读 · 2月10日

Automatic regularization parameter choice for tomography using a double model approach

Arxiv

0+阅读 · 2月10日

Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner

Arxiv

0+阅读 · 2月4日

Self-Foveate: Enhancing Diversity and Difficulty of Synthesized Instructions from Unsupervised Text via Multi-Level Foveation

Arxiv

0+阅读 · 2月3日

Correspondence-Free, Function-Based Sim-to-Real Learning for Deformable Surface Control

Arxiv

0+阅读 · 2月3日

相关基金

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下自动化制造单元前摄式/反应式调度研究

国家自然科学基金

2+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

抗干扰的农作物种植模式自动提取方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员