This work studies the applicability of automatic AI agent optimization methods to real-world agents in formal verification settings, focusing on automated theorem proving in Rocq as a representative and challenging domain. We evaluate how different automatic agent optimizers perform when applied to the task of optimizing a Rocq proof-generation agent, and assess whether parts of the fine-grained tuning of agentic systems, such as prompt design, contextual knowledge, and control strategies, can be automated. Our results show that while several optimizers yield measurable improvements, simple few-shot bootstrapping is the most consistently effective; however, none of the studied methods matches the performance of a carefully engineered state-of-the-art proof agent.


翻译:本研究探讨了自动AI智能体优化方法在形式化验证场景中实际智能体的适用性,聚焦于以Rocq自动定理证明为代表的挑战性领域。我们评估了不同自动智能体优化器在优化Rocq证明生成智能体任务中的表现,并检验智能体系统中提示设计、上下文知识与控制策略等细粒度调优环节能否实现自动化。实验结果表明:尽管多种优化器能带来可测量的性能提升,但简单的少样本引导法具有最稳定的有效性;然而,所有被研究方法的性能均未能超越精心设计的最先进证明智能体。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
迈向智能体系统规模化的科学
专知会员服务
20+阅读 · 2025年12月12日
《多智能体强化学习中的机制设计优化研究》103页
专知会员服务
31+阅读 · 2025年5月31日
《多智能体强化学习中机制设计的优化》103页
专知会员服务
30+阅读 · 2025年5月3日
多智能体深度强化学习的若干关键科学问题
专知会员服务
195+阅读 · 2020年5月24日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员