We propose a minimal agentic baseline that enables systematic comparison across different AI-based theorem prover architectures. This design implements the core features shared among state-of-the-art systems: iterative proof refinement, library search and context management. We evaluate our baseline using qualitatively different benchmarks and compare various popular models and design choices, and demonstrate competitive performance compared to state-of-the-art approaches, while using a significantly simpler architecture. Our results demonstrate consistent advantages of an iterative approach over multiple single-shot generations, especially in terms of sample efficiency and cost effectiveness. The implementation is released open-source as a candidate reference for future research and as an accessible prover for the community.


翻译:我们提出了一种最小化的智能体基线,使得能够系统性地比较不同基于人工智能的定理证明器架构。该设计实现了最先进系统共有的核心特性:迭代式证明精化、库搜索与上下文管理。我们使用性质不同的基准测试评估该基线,比较了多种流行模型与设计选择,并证明了其在采用显著简化架构的同时,仍能达到与最先进方法相竞争的性能。我们的结果表明,相较于多次单次生成,迭代式方法在样本效率与成本效益方面具有持续优势。该实现已作为开源项目发布,旨在为未来研究提供一个候选参考,并为社区提供一个易于使用的证明器。

0
下载
关闭预览

相关内容

KARL:基于强化学习的知识智能体
专知会员服务
13+阅读 · 3月7日
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
48+阅读 · 3月1日
智能体工程(Agent Engineering)
专知会员服务
35+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
智能体适应
专知会员服务
26+阅读 · 2025年12月11日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
深度解读:小米AI实验室AutoML团队最新成果FairNAS
PaperWeekly
32+阅读 · 2019年7月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月26日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
KARL:基于强化学习的知识智能体
专知会员服务
13+阅读 · 3月7日
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
48+阅读 · 3月1日
智能体工程(Agent Engineering)
专知会员服务
35+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
智能体适应
专知会员服务
26+阅读 · 2025年12月11日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员