Agentic theorem provers -- pipelines that couple a mathematical reasoning model with library retrieval, subgoal-decomposition/search planner, and a proof assistant verifier -- have recently achieved striking empirical success, yet it remains unclear which components drive performance and why such systems work at all despite classical hardness of proof search. We propose a distributional viewpoint and introduce \textbf{statistical provability}, defined as the finite-horizon success probability of reaching a verified proof, averaged over an instance distribution, and formalize modern theorem-proving pipelines as time-bounded MDPs. Exploiting Bellman structure, we prove existence of optimal policies under mild regularity, derive provability certificates via sub-/super-solution inequalities, and bound the performance gap of score-guided planning (greedy/top-\(k\)/beam/rollouts) in terms of approximation error, sequential statistical complexity, representation geometry (metric entropy/doubling structure), and action-gap margin tails. Together, our theory provides a principled, component-sensitive explanation of when and why agentic theorem provers succeed on biased real-world problem distributions, while clarifying limitations in worst-case or adversarial regimes.


翻译:智能定理证明器——将数学推理模型与库检索、子目标分解/搜索规划器以及证明辅助验证器相结合的流水线——最近取得了显著的实证成功,然而,究竟是哪些组件驱动了性能,以及为何此类系统能够在证明搜索这一经典难题中发挥作用,目前仍不清楚。我们提出一种分布视角,引入**统计可证性**,其定义为在实例分布上平均的、在有限时域内达到已验证证明的成功概率,并将现代定理证明流水线形式化为时间有界的马尔可夫决策过程。利用贝尔曼结构,我们在温和的正则性条件下证明了最优策略的存在性,通过次/超解不等式推导出可证性证书,并从近似误差、序列统计复杂度、表示几何(度量熵/倍增结构)以及动作间隙尾部分布等方面,界定了分数引导规划(贪婪/前k/束搜索/滚动)的性能差距。综合而言,我们的理论为智能定理证明器何时以及为何能在有偏的真实世界问题分布上取得成功,提供了一个原则性的、对组件敏感的解释,同时阐明了其在最坏情况或对抗性机制下的局限性。

0
下载
关闭预览

相关内容

深度学习在数学推理中的应用综述
专知会员服务
48+阅读 · 2022年12月25日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Exploring Reasoning Reward Model for Agents
VIP会员
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员