We report the performance of Aletheia (Feng et al., 2026b), a mathematics research agent powered by Gemini 3 Deep Think, on the inaugural FirstProof challenge. Within the allowed timeframe of the challenge, Aletheia autonomously solved 6 problems (2, 5, 7, 8, 9, 10) out of 10 according to majority expert assessments; we note that experts were not unanimous on Problem 8 (only). For full transparency, we explain our interpretation of FirstProof and disclose details about our experiments as well as our evaluation. Raw prompts and outputs are available at https://github.com/google-deepmind/superhuman/tree/main/aletheia.


翻译:我们报告了Aletheia(Feng等人,2026b)——一个基于Gemini 3 Deep Think驱动的数学研究智能体——在首届FirstProof挑战中的表现。在挑战规定的时间范围内,根据多数专家评估,Aletheia自主解决了10道题目中的6道(第2、5、7、8、9、10题);我们注意到仅在第8题上专家意见未达成一致。为确保完全透明,我们阐述了自身对FirstProof的理解,并公开了实验细节与评估方法。原始提示词与输出结果可在https://github.com/google-deepmind/superhuman/tree/main/aletheia获取。

0
下载
关闭预览

相关内容

国家首部《“东数西算”算力报告》发布,
专知会员服务
42+阅读 · 2023年11月15日
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
由浅及深,细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia
GAN生成式对抗网络
50+阅读 · 2019年3月13日
AI界的State of the Art都在这里了
机器之心
12+阅读 · 2018年12月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月14日
Arxiv
0+阅读 · 2月12日
Arxiv
27+阅读 · 2021年11月11日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
4+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
10+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
1+阅读 · 4月12日
相关VIP内容
国家首部《“东数西算”算力报告》发布,
专知会员服务
42+阅读 · 2023年11月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员