多模态大语言模型在学习多模态推理时学到了什么：感知、推理还是它们的整合？ (What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration?) - 专知论文

会员服务 ·

0

多模 · 模态 · 多模态 · 多模态推理 · 准确率 ·

What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration?

翻译：多模态大语言模型在学习多模态推理时学到了什么：感知、推理还是它们的整合？

Jiwan Chung,Neel Joshi,Pratyusha Sharma,Youngjae Yu,Vibhav Vineet

Evaluation of multimodal reasoning models is typically reduced to a single accuracy score, implicitly treating reasoning as a unitary capability. We introduce MathLens, a benchmark of textbook-style geometry problems that exposes this assumption by operationally decomposing performance into Perception, Reasoning, and Integration. Each problem is derived from a symbolic specification and accompanied by visual diagrams, text-only variants, multimodal questions, and targeted perceptual probes, enabling controlled measurement of each component. Using this decomposition, we show that common training strategies induce systematically different capability profiles that are invisible under aggregate accuracy. Reinforcement learning primarily improves perceptual grounding and robustness to diagram variation, while textual SFT yields gains through reflective reasoning. In contrast, as perception and reasoning improve, a growing fraction of remaining errors fall outside these components and are categorized as integration. These results suggest that apparent progress in multimodal reasoning reflects shifting balances among subskills rather than uniform advancement, motivating evaluation beyond scalar accuracy.

翻译：对多模态推理模型的评估通常被简化为单一的准确率分数，这隐含地将推理视为一种单一能力。我们提出了MathLens，一个教科书风格的几何问题基准，通过将性能操作性地分解为感知、推理和整合三个部分，揭示了这一假设。每个问题都源自符号化规范，并配有视觉图表、纯文本变体、多模态问题以及针对性的感知探测，从而实现对每个组件的受控测量。利用这种分解方法，我们发现常见的训练策略会引发系统性的不同能力分布，而这些分布在聚合准确率下是不可见的。强化学习主要提升了感知基础和对图表变化的鲁棒性，而文本监督微调则通过反思性推理带来增益。相比之下，随着感知和推理能力的提升，剩余错误中越来越大的比例超出了这些组件范畴，被归类为整合错误。这些结果表明，多模态推理表面上的进展反映的是子技能之间平衡的变化，而非均匀的全面进步，这促使我们需要超越标量准确率进行更全面的评估。

0

相关内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

22+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

27+阅读 · 2025年10月1日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

感知、推理、思考与规划：大型多模态推理模型综述

感知、推理、思考与规划：大型多模态推理模型综述

专知会员服务

39+阅读 · 2025年5月10日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

35+阅读 · 2025年5月3日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Arxiv

0+阅读 · 2月12日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月10日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Arxiv

0+阅读 · 2月5日

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Arxiv

0+阅读 · 2月4日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Learning to Reason in LLMs by Expectation Maximization

Arxiv

1+阅读 · 1月31日

MM-THEBench: Do Reasoning MLLMs Think Reasonably?

Arxiv

0+阅读 · 1月30日

Teaching Small Language Models to Learn Logic through Meta-Learning

Arxiv

0+阅读 · 1月26日

TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

多模态推理

相关VIP内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

22+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

27+阅读 · 2025年10月1日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

感知、推理、思考与规划：大型多模态推理模型综述

感知、推理、思考与规划：大型多模态推理模型综述

专知会员服务

39+阅读 · 2025年5月10日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

35+阅读 · 2025年5月3日

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

《多模态大语言模型时代的数学推理研究：基准、方法与挑战》

专知会员服务

37+阅读 · 2024年12月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Arxiv

0+阅读 · 2月12日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月10日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Arxiv

0+阅读 · 2月5日

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Arxiv

0+阅读 · 2月4日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Learning to Reason in LLMs by Expectation Maximization

Arxiv

1+阅读 · 1月31日

MM-THEBench: Do Reasoning MLLMs Think Reasonably?

Arxiv

0+阅读 · 1月30日

Teaching Small Language Models to Learn Logic through Meta-Learning

Arxiv

0+阅读 · 1月26日

TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning

Arxiv

0+阅读 · 1月23日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员