Aletheia tackles FirstProof autonomously - 专知论文

会员服务 ·

0

一致 · 输出 · DeepMind · GitHub · Google ·

Aletheia tackles FirstProof autonomously

翻译：Aletheia自主攻克首届FirstProof挑战

Tony Feng,Junehyuk Jung,Sang-hyun Kim,Carlo Pagano,Sergei Gukov,Chiang-Chiang Tsai,David Woodruff,Adel Javanmard,Aryan Mokhtari,Dawsen Hwang,Yuri Chervonyi,Jonathan N. Lee,Garrett Bingham,Trieu H. Trinh,Vahab Mirrokni,Quoc V. Le,Thang Luong

from arxiv, 34 pages. Project page: https://github.com/google-deepmind/superhuman/tree/main/aletheia

We report the performance of Aletheia (Feng et al., 2026b), a mathematics research agent powered by Gemini 3 Deep Think, on the inaugural FirstProof challenge. Within the allowed timeframe of the challenge, Aletheia autonomously solved 6 problems (2, 5, 7, 8, 9, 10) out of 10 according to majority expert assessments; we note that experts were not unanimous on Problem 8 (only). For full transparency, we explain our interpretation of FirstProof and disclose details about our experiments as well as our evaluation. Raw prompts and outputs are available at https://github.com/google-deepmind/superhuman/tree/main/aletheia.

翻译：我们报告了Aletheia（Feng等人，2026b）——一个基于Gemini 3 Deep Think驱动的数学研究智能体——在首届FirstProof挑战中的表现。在挑战规定的时间范围内，根据多数专家评估，Aletheia自主解决了10道题目中的6道（第2、5、7、8、9、10题）；我们注意到仅在第8题上专家意见未达成一致。为确保完全透明，我们阐述了自身对FirstProof的理解，并公开了实验细节与评估方法。原始提示词与输出结果可在https://github.com/google-deepmind/superhuman/tree/main/aletheia获取。

0

相关内容

利用人工智能塑造未来：美陆军发布“陆军快速实施人工智能（ARIA）”项目

利用人工智能塑造未来：美陆军发布“陆军快速实施人工智能（ARIA）”项目

专知会员服务

28+阅读 · 3月11日

世界模拟器才是AGI终局，12态势预测！首席专家万字长文专业解读Sora里程碑

世界模拟器才是AGI终局，12态势预测！首席专家万字长文专业解读Sora里程碑

专知会员服务

81+阅读 · 2024年2月21日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

专知会员服务

53+阅读 · 2023年12月15日

国家首部《“东数西算”算力报告》发布，

国家首部《“东数西算”算力报告》发布，

专知会员服务

42+阅读 · 2023年11月15日

【Nature】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%

【Nature】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%

专知会员服务

40+阅读 · 2023年6月8日

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

专知会员服务

52+阅读 · 2023年4月15日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

57+阅读 · 2022年11月25日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

GAN生成式对抗网络

50+阅读 · 2019年3月13日

AI界的State of the Art都在这里了

AI界的State of the Art都在这里了

机器之心

12+阅读 · 2018年12月10日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI研习社

12+阅读 · 2018年7月30日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

电场调制增强型AlGaN/GaN HEMT关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

资助《数学进展》期刊

国家自然科学基金

3+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

单位球面中极小超曲面的第一特征值的Yau的猜想

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

Arxiv

0+阅读 · 4月7日

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Arxiv

0+阅读 · 4月7日

Glia: A Human-Inspired AI for Automated Systems Design and Optimization

Arxiv

0+阅读 · 4月3日

Glia: A Human-Inspired AI for Automated Systems Design and Optimization

Arxiv

0+阅读 · 4月2日

The First OpenFOAM HPC Challenge (OHC-1)

Arxiv

0+阅读 · 3月29日

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

Arxiv

0+阅读 · 3月25日

Ara-Best-RQ: Multi Dialectal Arabic SSL

Arxiv

0+阅读 · 3月23日

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Arxiv

0+阅读 · 3月16日

Towards Autonomous Mathematics Research

Arxiv

0+阅读 · 3月6日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

VIP会员

文章信息

相关主题

最新内容

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 今天8:28

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

11+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

相关VIP内容

利用人工智能塑造未来：美陆军发布“陆军快速实施人工智能（ARIA）”项目

利用人工智能塑造未来：美陆军发布“陆军快速实施人工智能（ARIA）”项目

专知会员服务

28+阅读 · 3月11日

世界模拟器才是AGI终局，12态势预测！首席专家万字长文专业解读Sora里程碑

世界模拟器才是AGI终局，12态势预测！首席专家万字长文专业解读Sora里程碑

专知会员服务

81+阅读 · 2024年2月21日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

专知会员服务

53+阅读 · 2023年12月15日

国家首部《“东数西算”算力报告》发布，

国家首部《“东数西算”算力报告》发布，

专知会员服务

42+阅读 · 2023年11月15日

【Nature】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%

【Nature】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%

专知会员服务

40+阅读 · 2023年6月8日

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

专知会员服务

52+阅读 · 2023年4月15日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

57+阅读 · 2022年11月25日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

GAN生成式对抗网络

50+阅读 · 2019年3月13日

AI界的State of the Art都在这里了

AI界的State of the Art都在这里了

机器之心

12+阅读 · 2018年12月10日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI研习社

12+阅读 · 2018年7月30日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

相关论文

ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

Arxiv

0+阅读 · 4月7日

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Arxiv

0+阅读 · 4月7日

Glia: A Human-Inspired AI for Automated Systems Design and Optimization

Arxiv

0+阅读 · 4月3日

Glia: A Human-Inspired AI for Automated Systems Design and Optimization

Arxiv

0+阅读 · 4月2日

The First OpenFOAM HPC Challenge (OHC-1)

Arxiv

0+阅读 · 3月29日

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

Arxiv

0+阅读 · 3月25日

Ara-Best-RQ: Multi Dialectal Arabic SSL

Arxiv

0+阅读 · 3月23日

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Arxiv

0+阅读 · 3月16日

Towards Autonomous Mathematics Research

Arxiv

0+阅读 · 3月6日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

相关基金

电场调制增强型AlGaN/GaN HEMT关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

资助《数学进展》期刊

国家自然科学基金

3+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

单位球面中极小超曲面的第一特征值的Yau的猜想

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员