Multimodal Mathematical Reasoning (MMR) has recently attracted increasing attention for its capability to solve mathematical problems involving both textual and visual modalities. However, current models still face significant challenges in real-world visual math tasks, often misinterpreting diagrams, failing to align mathematical symbols with visual evidence, or producing inconsistent reasoning steps. Moreover, existing evaluations mainly focus on checking final answers rather than verifying the correctness or executability of each intermediate step. A growing body of recent research addresses these issues by integrating structured perception, explicit alignment, and verifiable reasoning within unified frameworks. To establish a clear roadmap for understanding and comparing different MMR approaches, we systematically review them around four fundamental questions: (1) What to extract from multimodal inputs, (2) How to represent and align textual and visual information, (3) How to perform the reasoning, and (4) How to evaluate the correctness of the overall reasoning process. Finally, we discuss open challenges and share our thoughts on future research directions.


翻译:多模态数学推理(MMR)近年来因解决涉及文本与视觉两种模态的数学问题能力而受到越来越多的关注。然而,当前模型在现实世界的视觉数学任务中仍面临重大挑战,常常误读图表、无法将数学符号与视觉证据对齐,或产生不一致的推理步骤。此外,现有评估主要关注检查最终答案,而非验证每个中间步骤的正确性或可执行性。近期越来越多研究通过将结构化感知、显式对齐和可验证推理整合到统一框架中来应对这些问题。为了建立理解与比较不同MMR方法的清晰路线图,我们围绕四个基本问题对其进行系统综述:(1)从多模态输入中提取什么,(2)如何表示并对齐文本与视觉信息,(3)如何执行推理,以及(4)如何评估整体推理过程的正确性。最后,我们讨论了开放挑战,并分享了对未来研究方向的思考。

0
下载
关闭预览

相关内容

多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
37+阅读 · 2025年5月3日
多模态思维链推理:全面综述
专知会员服务
61+阅读 · 2025年3月23日
161页《大模型推理》最新综述,涵盖650多篇大模型论文
专知会员服务
128+阅读 · 2024年1月27日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月25日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
2+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
6+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
5+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
5+阅读 · 6月24日
综述 | 世界动作模型:少做梦,多行动
专知会员服务
7+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
11+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员