Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics - 专知论文

会员服务 ·

0

系统 · 数学 · 工具 · 智能体 · 形式化 ·

Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

翻译：Numina-Lean-Agent：一个开放通用的形式数学智能体推理系统

Junqi Liu,Zihao Zhou,Zekai Zhu,Marco Dos Santos,Weikun He,Jiawei Liu,Ran Wang,Yunzhou Xie,Junqiao Zhao,Qiufeng Wang,Lihong Zhi,Jia Li,Wenda Li

Agentic systems have recently become the dominant paradigm for formal theorem proving, achieving strong performance by coordinating multiple models and tools. However, existing approaches often rely on task-specific pipelines and trained formal provers, limiting their flexibility and reproducibility. In this paper, we propose the paradigm that directly uses a general coding agent as a formal math reasoner. This paradigm is motivated by (1) A general coding agent provides a natural interface for diverse reasoning tasks beyond proving, (2) Performance can be improved by simply replacing the underlying base model, without training, and (3) MCP enables flexible extension and autonomous calling of specialized tools, avoiding complex design. Based on this paradigm, we introduce Numina-Lean-Agent, which combines Claude Code with Numina-Lean-MCP to enable autonomous interaction with Lean, retrieval of relevant theorems, informal proving and auxiliary reasoning tools. Using Claude Opus 4.5 as the base model, Numina-Lean-Agent solves all problems in Putnam 2025 (12 / 12), matching the best closed-source system. Beyond benchmark evaluation, we further demonstrate its generality by interacting with mathematicians to successfully formalize the Brascamp-Lieb theorem. We release Numina-Lean-Agent and all solutions at https://github.com/project-numina/numina-lean-agent.

翻译：智能体系统近来已成为形式定理证明的主导范式，通过协调多个模型与工具实现了强大的性能。然而，现有方法通常依赖于任务特定的流程和经过训练的形式证明器，限制了其灵活性与可复现性。本文提出一种直接使用通用编码智能体作为形式数学推理器的新范式。该范式的动机在于：（1）通用编码智能体为证明之外的多样化推理任务提供了自然接口；（2）仅通过替换底层基础模型即可提升性能，无需额外训练；（3）MCP 支持灵活扩展并自主调用专用工具，避免了复杂的设计。基于此范式，我们推出了 Numina-Lean-Agent，该系统将 Claude Code 与 Numina-Lean-MCP 相结合，实现了与 Lean 的自主交互、相关定理检索、非形式化证明以及辅助推理工具的调用。以 Claude Opus 4.5 作为基础模型，Numina-Lean-Agent 解决了 Putnam 2025 的全部问题（12 / 12），达到了最佳闭源系统的水平。除基准评估外，我们进一步通过与数学家协作成功形式化 Brascamp-Lieb 定理，展示了其通用性。我们在 https://github.com/project-numina/numina-lean-agent 发布了 Numina-Lean-Agent 及所有解答。

0

相关内容

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

53+阅读 · 2025年8月26日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

35+阅读 · 2022年6月2日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

专知

12+阅读 · 2022年1月28日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

Why Agentic Theorem Prover Works: A Statistical Provability Theory of Mathematical Reasoning Models

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

DeepAgent: A General Reasoning Agent with Scalable Toolsets

Arxiv

0+阅读 · 2月5日

AgenticSimLaw: A Juvenile Courtroom Multi-Agent Debate Simulation for Explainable High-Stakes Tabular Decision Making

Arxiv

0+阅读 · 1月29日

TrustResearcher: Automating Knowledge-Grounded and Transparent Research Ideation with Multi-Agent Collaboration

Arxiv

0+阅读 · 1月25日

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Arxiv

0+阅读 · 1月25日

Spatial-Agent: Agentic Geo-spatial Reasoning with Scientific Core Concepts

Arxiv

0+阅读 · 1月23日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月21日

Sutradhara: An Intelligent Orchestrator-Engine Co-design for Tool-based Agentic Inference

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

3+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

2+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

7+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

相关VIP内容

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

53+阅读 · 2025年8月26日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

大语言模型智能体长期记忆安全性综述：迈向记忆主权

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，330页pdf

专知

35+阅读 · 2022年6月2日

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

【Manning新书】可解释人工智能: 构建可解释机器学习系统，144页pdf

专知

12+阅读 · 2022年1月28日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

为机器学习插上因果推理的翅膀：这是一本系统的因果推理开源书

机器之心

34+阅读 · 2019年1月4日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

Why Agentic Theorem Prover Works: A Statistical Provability Theory of Mathematical Reasoning Models

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

DeepAgent: A General Reasoning Agent with Scalable Toolsets

Arxiv

0+阅读 · 2月5日

AgenticSimLaw: A Juvenile Courtroom Multi-Agent Debate Simulation for Explainable High-Stakes Tabular Decision Making

Arxiv

0+阅读 · 1月29日

TrustResearcher: Automating Knowledge-Grounded and Transparent Research Ideation with Multi-Agent Collaboration

Arxiv

0+阅读 · 1月25日

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Arxiv

0+阅读 · 1月25日

Spatial-Agent: Agentic Geo-spatial Reasoning with Scientific Core Concepts

Arxiv

0+阅读 · 1月23日

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Arxiv

0+阅读 · 1月21日

Sutradhara: An Intelligent Orchestrator-Engine Co-design for Tool-based Agentic Inference

Arxiv

0+阅读 · 1月19日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员