MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval - 专知论文

会员服务 ·

0

基准 · 数学 · 多模 · 模态 · 数据集 ·

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

翻译：MathNet：一个面向数学推理与检索的全局多模态基准

Shaden Alshammari,Kevin Wen,Abrar Zainal,Mark Hamilton,Navid Safaei,Sultan Albarakati,William T. Freeman,Antonio Torralba

from arxiv, ICLR 2026; Website: http://mathnet.mit.edu

Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.

翻译：数学问题求解仍是大语言模型和多模态模型在推理能力上的重大考验，然而现有基准在规模、语言覆盖范围和任务多样性方面存在局限。我们提出MathNet——一个高质量、大规模、多模态且多语言的奥林匹克级数学问题数据集，以及一个用于评估生成模型数学推理能力和基于嵌入系统数学检索能力的基准。MathNet涵盖47个国家、17种语言，横跨二十年的竞赛题目，包含30,676道专家撰写的问题及其解决方案，覆盖多个领域。除核心数据集外，我们构建了一个由人类专家精选的数学等价与结构相似问题对组成的检索基准。MathNet支持三项任务：（i）问题求解，（ii）数学感知检索，以及（iii）检索增强的问题求解。实验结果表明，即使最先进的推理模型（Gemini-3.1-Pro为78.4%，GPT-5为69.3%）仍面临挑战，而嵌入模型在检索等价问题方面表现不佳。我们进一步表明，检索增强生成的性能对检索质量高度敏感；例如，DeepSeek-V3.2-Speciale实现了高达12%的提升，在该基准上取得了最高分数。MathNet提供了最大的高质量奥林匹克数据集，以及首个评估数学问题检索的基准。我们在https://mathnet.mit.edu上公开提供该数据集和基准。

0

相关内容

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

专知会员服务

31+阅读 · 2025年11月9日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

专知会员服务

11+阅读 · 2025年4月17日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

149+阅读 · 2020年10月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知

21+阅读 · 2022年7月3日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【初学者指南】神经网络中的数学

【初学者指南】神经网络中的数学

专知

33+阅读 · 2019年12月16日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

MathDuels: Evaluating LLMs as Problem Posers and Solvers

Arxiv

0+阅读 · 4月23日

A Survey of Multimodal Mathematical Reasoning: From Perception, Alignment to Reasoning

Arxiv

0+阅读 · 4月14日

MathGen: Revealing the Illusion of Mathematical Competence through Text-to-Image Generation

Arxiv

0+阅读 · 3月31日

Mario: Multimodal Graph Reasoning with Large Language Models

Arxiv

0+阅读 · 3月26日

TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Arxiv

0+阅读 · 3月26日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

Arxiv

0+阅读 · 3月16日

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Arxiv

0+阅读 · 3月12日

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

Arxiv

0+阅读 · 3月1日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

0+阅读 · 54分钟前

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

0+阅读 · 56分钟前

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

专知会员服务

31+阅读 · 2025年11月9日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

OlymMATH: 奥林匹克级双语数学基准，R1 正确率仅为 21.2%

专知会员服务

11+阅读 · 2025年4月17日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

149+阅读 · 2020年10月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知

21+阅读 · 2022年7月3日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【初学者指南】神经网络中的数学

【初学者指南】神经网络中的数学

专知

33+阅读 · 2019年12月16日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

相关论文

MathDuels: Evaluating LLMs as Problem Posers and Solvers

Arxiv

0+阅读 · 4月23日

A Survey of Multimodal Mathematical Reasoning: From Perception, Alignment to Reasoning

Arxiv

0+阅读 · 4月14日

MathGen: Revealing the Illusion of Mathematical Competence through Text-to-Image Generation

Arxiv

0+阅读 · 3月31日

Mario: Multimodal Graph Reasoning with Large Language Models

Arxiv

0+阅读 · 3月26日

TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Arxiv

0+阅读 · 3月26日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

Arxiv

0+阅读 · 3月16日

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Arxiv

0+阅读 · 3月12日

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

Arxiv

0+阅读 · 3月1日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员