Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest quantifying standard levels of autonomy and novelty of AI-assisted results, as well as propose a novel concept of human-AI interaction cards for transparency. We conclude with reflections on human-AI collaboration in mathematics and share all prompts as well as model outputs at https://github.com/google-deepmind/superhuman/tree/main/aletheia.


翻译:基础模型的近期进展已催生出能够在国际数学奥林匹克竞赛中达到金牌标准的推理系统。然而,从竞赛级问题求解向专业研究的过渡,需要驾驭海量文献并构建长视野的证明。本文中,我们介绍Aletheia——一种迭代生成、验证并端到端修正自然语言解决方案的数学研究智能体。具体而言,Aletheia由三个核心组件驱动:针对挑战性推理问题的高级版Gemini Deep Think、超越奥林匹克竞赛问题的新型推理时间缩放定律,以及用于应对数学研究复杂性的密集工具调用。我们展示了Aletheia从奥林匹克问题到博士级习题的能力,更通过人工智能辅助数学研究的若干里程碑得以彰显:(a) 完全由AI生成的研究论文(Feng26),在计算算术几何中称为特征权的特定结构常数时无需任何人工干预;(b) 展示人机协作证明称为独立集的相互作用粒子系统边界的研究论文(LeeSeo26);(c) 对Bloom的Erdos猜想数据库中700个开放问题的广泛半自主评估(Feng et al., 2026a),包括对四个开放问题的自主解决方案。为帮助公众更好地理解人工智能与数学相关的发展,我们建议量化人工智能辅助成果的标准自主性与新颖性等级,并提出用于透明化的人机交互卡片新概念。最后我们反思数学领域的人机协作,并将所有提示词及模型输出发布于https://github.com/google-deepmind/superhuman/tree/main/aletheia。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
AgentRxiv:迈向协作式自主科学研究
专知会员服务
10+阅读 · 2月20日
《基于大语言模型的数学推理与优化研究综述》
专知会员服务
33+阅读 · 2025年3月26日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年5月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年5月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员