Why Agentic Theorem Prover Works: A Statistical Provability Theory of Mathematical Reasoning Models - 专知论文

会员服务 ·

0

定理证明 · 数学 · 搜索 · 推理模型 · 数学推理 ·

Why Agentic Theorem Prover Works: A Statistical Provability Theory of Mathematical Reasoning Models

翻译：为什么智能定理证明器有效：数学推理模型的统计可证性理论

Sho Sonoda,Shunta Akiyama,Yuya Uezato

from arxiv, corrected typos and updated notations

Agentic theorem provers -- pipelines that couple a mathematical reasoning model with library retrieval, subgoal-decomposition/search planner, and a proof assistant verifier -- have recently achieved striking empirical success, yet it remains unclear which components drive performance and why such systems work at all despite classical hardness of proof search. We propose a distributional viewpoint and introduce \textbf{statistical provability}, defined as the finite-horizon success probability of reaching a verified proof, averaged over an instance distribution, and formalize modern theorem-proving pipelines as time-bounded MDPs. Exploiting Bellman structure, we prove existence of optimal policies under mild regularity, derive provability certificates via sub-/super-solution inequalities, and bound the performance gap of score-guided planning (greedy/top-\(k\)/beam/rollouts) in terms of approximation error, sequential statistical complexity, representation geometry (metric entropy/doubling structure), and action-gap margin tails. Together, our theory provides a principled, component-sensitive explanation of when and why agentic theorem provers succeed on biased real-world problem distributions, while clarifying limitations in worst-case or adversarial regimes.

翻译：智能定理证明器——将数学推理模型与库检索、子目标分解/搜索规划器以及证明辅助验证器相结合的流水线——最近取得了显著的实证成功，然而，究竟是哪些组件驱动了性能，以及为何此类系统能够在证明搜索这一经典难题中发挥作用，目前仍不清楚。我们提出一种分布视角，引入**统计可证性**，其定义为在实例分布上平均的、在有限时域内达到已验证证明的成功概率，并将现代定理证明流水线形式化为时间有界的马尔可夫决策过程。利用贝尔曼结构，我们在温和的正则性条件下证明了最优策略的存在性，通过次/超解不等式推导出可证性证书，并从近似误差、序列统计复杂度、表示几何（度量熵/倍增结构）以及动作间隙尾部分布等方面，界定了分数引导规划（贪婪/前k/束搜索/滚动）的性能差距。综合而言，我们的理论为智能定理证明器何时以及为何能在有偏的真实世界问题分布上取得成功，提供了一个原则性的、对组件敏感的解释，同时阐明了其在最坏情况或对抗性机制下的局限性。

0

相关内容

定理证明

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

专知会员服务

36+阅读 · 2024年2月28日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【AAMAS2021】机器推理可解释，152页ppt，Machine Reasoning Explainability

专知会员服务

36+阅读 · 2021年5月9日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

专知

20+阅读 · 2021年3月21日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

机器学习经典必读书，李航《统计学习方法》出视频课了！

机器学习经典必读书，李航《统计学习方法》出视频课了！

深度学习与NLP

15+阅读 · 2019年5月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Mathematicians in the age of AI

Arxiv

1+阅读 · 3月7日

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Arxiv

0+阅读 · 3月5日

Agentic Code Reasoning

Arxiv

0+阅读 · 3月4日

A Minimal Agent for Automated Theorem Proving

Arxiv

0+阅读 · 2月27日

Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

Arxiv

0+阅读 · 2月24日

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Arxiv

0+阅读 · 2月19日

Why Agentic Theorem Prover Works: A Statistical Provability Theory of Mathematical Reasoning Models

Arxiv

0+阅读 · 2月11日

RocqSmith: Can Automatic Optimization Forge Better Proof Agents?

Arxiv

0+阅读 · 2月5日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

5+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

【普林斯顿博士论文】深度学习在自动定理证明中的应用, 95页pdf

专知会员服务

36+阅读 · 2024年2月28日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【AAMAS2021】机器推理可解释，152页ppt，Machine Reasoning Explainability

专知会员服务

36+阅读 · 2021年5月9日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

「因果性机器学习」书册，88页pdf概述机器学习中的因果推理

专知

20+阅读 · 2021年3月21日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

机器学习经典必读书，李航《统计学习方法》出视频课了！

机器学习经典必读书，李航《统计学习方法》出视频课了！

深度学习与NLP

15+阅读 · 2019年5月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

相关论文

Mathematicians in the age of AI

Arxiv

1+阅读 · 3月7日

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Arxiv

0+阅读 · 3月5日

Agentic Code Reasoning

Arxiv

0+阅读 · 3月4日

A Minimal Agent for Automated Theorem Proving

Arxiv

0+阅读 · 2月27日

Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

Arxiv

0+阅读 · 2月24日

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Arxiv

0+阅读 · 2月19日

Why Agentic Theorem Prover Works: A Statistical Provability Theory of Mathematical Reasoning Models

Arxiv

0+阅读 · 2月11日

RocqSmith: Can Automatic Optimization Forge Better Proof Agents?

Arxiv

0+阅读 · 2月5日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis

Arxiv

0+阅读 · 2月3日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数随机微分方程的定性理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员