Large language models (LLMs) are increasingly used in workflows for generating formal proofs in Lean. These workflows often decompose problems into smaller lemmas, sample many proof attempts, and use compiler feedback to guide search. However, they can be prohibitively expensive, often spending substantial compute on attempts that ultimately fail. In this work, we address this problem with an action routing agent that consists of a data plane and a control plane. The data plane generates natural-language lemma decompositions, formalizes them in Lean, and samples proof attempts for the resulting theorem and lemma targets. The control plane observes previous failed Lean attempts, estimates both the likelihood of success and cost of another attempt, and decides whether to continue proving the current target or restart from a new breakdown. On a subset of PutnamBench, our agent decreases the cost by $28.9\%$ over a fixed-step baseline on average, preserving performance while using substantially less compute. These results suggest that failed Lean trajectories provide actionable signals for cost-aware resource allocation in agentic theorem proving.


翻译:大型语言模型(LLMs)在Lean形式化证明的生成流程中应用日益广泛。这些流程通常将问题分解为更小的引理,采样大量证明尝试,并利用编译器反馈来指导搜索。然而,此类方法可能极其昂贵,往往将大量算力消耗在最终失败的尝试上。在本工作中,我们通过一个由数据平面和控制平面组成的动作路由智能体来解决此问题。数据平面生成自然语言引理分解,在Lean中将其形式化,并对由此产生的定理和引理目标采样证明尝试。控制平面观察先前失败的Lean尝试,估算下一次尝试的成功概率与成本,并决定是继续证明当前目标还是从新的分解重新开始。在PutnamBench子集上,我们的智能体相较于固定步长基线平均降低了28.9%的成本,在保持性能的同时显著减少了算力消耗。这些结果表明,失败的Lean轨迹为智能定理证明中的成本感知资源分配提供了可操作的信号。

0
下载
关闭预览

相关内容

大型语言模型推理引擎的综述:优化与效率的视角
专知会员服务
23+阅读 · 2025年5月13日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
94+阅读 · 2025年1月21日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
从动力学角度看优化算法:GAN的第三个阶段
PaperWeekly
11+阅读 · 2019年5月13日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员