Riemann-Bench: A Benchmark for Moonshot Mathematics - 专知论文

会员服务 ·

0

数学 · 基准 · 基准测试 · AI · 系统 ·

Riemann-Bench: A Benchmark for Moonshot Mathematics

翻译：Riemann-Bench: 面向颠覆性数学的基准测试

Suhaas Garre,Erik Knutsen,Sushant Mehta,Edwin Chen

Recent AI systems have achieved gold-medal-level performance on the International Mathematical Olympiad, demonstrating remarkable proficiency at competition-style problem solving. However, competition mathematics represents only a narrow slice of mathematical reasoning: problems are drawn from limited domains, require minimal advanced machinery, and can often reward insightful tricks over deep theoretical knowledge. We introduce Riemann-Bench, a private benchmark of expert-curated problems designed to evaluate AI systems on research-level mathematics that goes far beyond the olympiad frontier. Problems are authored by Ivy League mathematics professors, graduate students, and PhD-holding IMO medalists, and routinely took their authors weeks to solve independently. Each problem undergoes double-blind verification by two independent domain experts who must solve the problem from scratch, and yields a unique, closed-form solution assessed by programmatic verifiers. We evaluate frontier models as unconstrained research agents, with full access to coding tools, search, and open-ended reasoning, using an unbiased statistical estimator computed over 100 independent runs per problem. Our results reveal that all frontier models currently score below 10%, exposing a substantial gap between olympiad-level problem solving and genuine research-level mathematical reasoning. By keeping the benchmark fully private, we ensure that measured performance reflects authentic mathematical capability rather than memorization of training data.

翻译：最近的 AI 系统在国际数学奥林匹克竞赛中达到了金牌级别的表现，展现出在竞赛风格解题方面卓越的能力。然而，竞赛数学仅代表了数学推理中狭窄的一部分：问题局限于有限领域，所需的高级机制极少，且常常奖励巧妙的技巧而非深厚的理论知识。我们提出 Riemann-Bench，这是一个由专家精心策划问题的私有基准测试，旨在评估 AI 系统在远超奥林匹克前沿的研究级数学上的能力。问题由常春藤盟校数学教授、研究生以及拥有博士学位的国际数学奥林匹克奖牌得主设计，其作者通常需要数周时间才能独立解决。每个问题都经过两位独立领域专家的双盲验证，他们必须从头开始解决问题，并通过程序化验证器获得唯一、封闭形式的解。我们将前沿模型评估为不受限制的研究智能体，拥有对编码工具、搜索和开放式推理的完全访问权限，并对每个问题在 100 次独立运行中采用无偏统计估计量进行计算。我们的结果显示，所有前沿模型目前得分低于 10%，揭示了奥林匹克级解题与真正研究级数学推理之间的巨大差距。通过完全保密基准测试，我们确保测量的性能反映真实的数学能力，而非训练数据的记忆。

0

相关内容

数学是关于数量、结构、变化等主题的探索。

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

专知会员服务

11+阅读 · 2025年4月17日

【新书】数学的本质——通过基础问题探究，400页pdf

【新书】数学的本质——通过基础问题探究，400页pdf

专知会员服务

91+阅读 · 2025年1月31日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

【2023新书】人工智能基础数学:高效和成功人工智能系统数学，605页pdf

【2023新书】人工智能基础数学:高效和成功人工智能系统数学，605页pdf

专知会员服务

182+阅读 · 2023年2月27日

【2023新书】人工智能基础数学:高效和成功人工智能系统的下一级数学，701页pdf

【2023新书】人工智能基础数学:高效和成功人工智能系统的下一级数学，701页pdf

专知会员服务

164+阅读 · 2023年1月19日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

《机器学习的数学与统计学基础》，91页ppt，牛津大学Elizaveta Semenova

《机器学习的数学与统计学基础》，91页ppt，牛津大学Elizaveta Semenova

专知会员服务

89+阅读 · 2022年9月26日

124页哈佛数学系本科论文，带你了解流形学习的数学基础

124页哈佛数学系本科论文，带你了解流形学习的数学基础

专知会员服务

45+阅读 · 2020年12月23日

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

专知会员服务

23+阅读 · 2020年4月7日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

【资源】机器学习数学全书，1900页PDF下载

【资源】机器学习数学全书，1900页PDF下载

全球人工智能

158+阅读 · 2019年10月17日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

专知

39+阅读 · 2018年12月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

加权紧黎曼流形上函数逼近问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶微分-代数方程的高精度数值算法

国家自然科学基金

0+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

《数学译林》

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

GroupToM-Bench: Benchmarking Group Theory of Mind and Nonlinear Social Emergence in MLLMs

Arxiv

0+阅读 · 6月15日

Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs

Arxiv

0+阅读 · 6月13日

Riemannian Metric Matching for Scalable Geometric Modeling of Distributions

Arxiv

0+阅读 · 6月12日

VeriGeo: Controllable Geometry Question Generation with Numerical and Analytical Verification

Arxiv

0+阅读 · 6月12日

Lemmanaid: Neuro-Symbolic Lemma Conjecturing

Arxiv

0+阅读 · 6月2日

FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs

Arxiv

0+阅读 · 5月29日

MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics

Arxiv

0+阅读 · 5月27日

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Arxiv

0+阅读 · 5月19日

RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems

Arxiv

0+阅读 · 5月12日

GraphBench: Next-generation graph learning benchmarking

Arxiv

0+阅读 · 5月9日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

专知会员服务

11+阅读 · 2025年4月17日

【新书】数学的本质——通过基础问题探究，400页pdf

【新书】数学的本质——通过基础问题探究，400页pdf

专知会员服务

91+阅读 · 2025年1月31日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

【2023新书】人工智能基础数学:高效和成功人工智能系统数学，605页pdf

【2023新书】人工智能基础数学:高效和成功人工智能系统数学，605页pdf

专知会员服务

182+阅读 · 2023年2月27日

【2023新书】人工智能基础数学:高效和成功人工智能系统的下一级数学，701页pdf

【2023新书】人工智能基础数学:高效和成功人工智能系统的下一级数学，701页pdf

专知会员服务

164+阅读 · 2023年1月19日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

《机器学习的数学与统计学基础》，91页ppt，牛津大学Elizaveta Semenova

《机器学习的数学与统计学基础》，91页ppt，牛津大学Elizaveta Semenova

专知会员服务

89+阅读 · 2022年9月26日

124页哈佛数学系本科论文，带你了解流形学习的数学基础

124页哈佛数学系本科论文，带你了解流形学习的数学基础

专知会员服务

45+阅读 · 2020年12月23日

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

专知会员服务

23+阅读 · 2020年4月7日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

【资源】机器学习数学全书，1900页PDF下载

【资源】机器学习数学全书，1900页PDF下载

全球人工智能

158+阅读 · 2019年10月17日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

专知

39+阅读 · 2018年12月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

相关论文

GroupToM-Bench: Benchmarking Group Theory of Mind and Nonlinear Social Emergence in MLLMs

Arxiv

0+阅读 · 6月15日

Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs

Arxiv

0+阅读 · 6月13日

Riemannian Metric Matching for Scalable Geometric Modeling of Distributions

Arxiv

0+阅读 · 6月12日

VeriGeo: Controllable Geometry Question Generation with Numerical and Analytical Verification

Arxiv

0+阅读 · 6月12日

Lemmanaid: Neuro-Symbolic Lemma Conjecturing

Arxiv

0+阅读 · 6月2日

FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs

Arxiv

0+阅读 · 5月29日

MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics

Arxiv

0+阅读 · 5月27日

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

Arxiv

0+阅读 · 5月19日

RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems

Arxiv

0+阅读 · 5月12日

GraphBench: Next-generation graph learning benchmarking

Arxiv

0+阅读 · 5月9日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

加权紧黎曼流形上函数逼近问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶微分-代数方程的高精度数值算法

国家自然科学基金

0+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

《数学译林》

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员