Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math - 专知论文

会员服务 ·

0

多模 · 模态 · 多模态 · 数学 · 分析 ·

Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

翻译：能否读懂学生心思？多模态大模型在手写数学题错误分析中的表现

Dingjie Song,Tianlong Xu,Yi-Fan Zhang,Hang Li,Zhiling Yan,Xing Fan,Haoyang Li,Lichao Sun,Qingsong Wen

from arxiv, Accepted by the 27th International Conference on Artificial Intelligence in Education (AIED'26)

Assessing student handwritten scratchwork is crucial for personalized educational feedback but presents unique challenges due to diverse handwriting, complex layouts, and varied problem-solving approaches. Existing educational NLP primarily focuses on textual responses and neglects the complexity and multimodality inherent in authentic handwritten scratchwork. Current multimodal large language models (MLLMs) excel at visual reasoning but typically adopt an "examinee perspective", prioritizing generating correct answers rather than diagnosing student errors. To bridge these gaps, we introduce ScratchMath, a novel benchmark specifically designed for explaining and classifying errors in authentic handwritten mathematics scratchwork. Our dataset comprises 1,720 mathematics samples from Chinese primary and middle school students, supporting two key tasks: Error Cause Explanation (ECE) and Error Cause Classification (ECC), with seven defined error types. The dataset is meticulously annotated through rigorous human-machine collaborative approaches involving multiple stages of expert labeling, review, and verification. We systematically evaluate 16 leading MLLMs on ScratchMath, revealing significant performance gaps relative to human experts, especially in visual recognition and logical reasoning. Proprietary models notably outperform open-source models, with large reasoning models showing strong potential for error explanation. All evaluation data and frameworks are publicly available to facilitate further research.

翻译：评估学生的手写草稿对于提供个性化教育反馈至关重要，但由于手写多样性、复杂布局及解题思路的差异，这一任务面临独特挑战。现有教育自然语言处理技术主要聚焦于文本型作答，忽视了真实手写草稿固有复杂性与多模态特性。当前多模态大语言模型虽擅长视觉推理，但通常采用“考生视角”，优先追求生成正确答案而非诊断学生错误。为弥补这一空白，我们提出ScratchMath——一个专为解释与分类真实手写数学草稿错误而设计的新型基准测试集。该数据集包含1720份中国中小学生数学样本，支持错误原因解释与错误原因分类两项核心任务，并定义了七类错误类型。数据通过严格的人机协同方法精心标注，历经多轮专家标注、审核与验证。我们在ScratchMath上系统评估了16种主流多模态大语言模型，发现其与人类专家在视觉识别与逻辑推理等维度存在显著性能差距。闭源模型表现明显优于开源模型，而大型推理模型在错误解释任务中展现出较强潜力。所有评估数据与框架均已公开，以推动后续研究。

0

相关内容

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

浅谈多模态大模型幻觉缓解方法

浅谈多模态大模型幻觉缓解方法

专知会员服务

24+阅读 · 2024年12月17日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

159+阅读 · 2023年8月8日

多模态大模型的幻觉问题与评估

多模态大模型的幻觉问题与评估

专知会员服务

57+阅读 · 2023年7月28日

不可错过！厦大《模式识别》课程，附Slides

不可错过！厦大《模式识别》课程，附Slides

专知会员服务

57+阅读 · 2023年6月30日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

115+阅读 · 2021年4月27日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

149+阅读 · 2020年10月21日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

【哈工大SCIR】多模态情感分析简述

【哈工大SCIR】多模态情感分析简述

深度学习自然语言处理

33+阅读 · 2019年12月14日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

基于学生行为分析模型的高校智慧校园教育大数据应用研究

基于学生行为分析模型的高校智慧校园教育大数据应用研究

MOOC

24+阅读 · 2019年1月11日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向非接触式、非稳定和长时间尺度生理信号的情感状态自动识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Reasoning Models Know What's Important, and Encode It in Their Activations

Arxiv

0+阅读 · 6月11日

Characterizing Students' LLM Usage Behaviors and Their Association with Learning in Critical Thinking Tasks

Arxiv

0+阅读 · 5月29日

When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

Arxiv

0+阅读 · 5月26日

Explaining Too Much? Understanding How Large Language Model Reasoning Traces Influence Performance and Metacognition

Arxiv

0+阅读 · 5月25日

"I can't read your mind": A Study of Neurodivergent Computing Students' Experiences with Collaborative Active Learning

Arxiv

0+阅读 · 5月22日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 5月13日

Calibrated Multimodal Representation Learning with Missing Modalities

Arxiv

0+阅读 · 5月12日

Simulated Students in Tutoring Dialogues: Substance or Illusion?

Arxiv

0+阅读 · 5月5日

Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes

Arxiv

0+阅读 · 4月8日

From Untamed Black Box to Interpretable Pedagogical Orchestration: The Ensemble of Specialized LLMs Architecture for Adaptive Tutoring

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

浅谈多模态大模型幻觉缓解方法

浅谈多模态大模型幻觉缓解方法

专知会员服务

24+阅读 · 2024年12月17日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

159+阅读 · 2023年8月8日

多模态大模型的幻觉问题与评估

多模态大模型的幻觉问题与评估

专知会员服务

57+阅读 · 2023年7月28日

不可错过！厦大《模式识别》课程，附Slides

不可错过！厦大《模式识别》课程，附Slides

专知会员服务

57+阅读 · 2023年6月30日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

115+阅读 · 2021年4月27日

【NLPCC2020】多模态知识图谱构建、推理与挑战，东南大学王萌博士

专知会员服务

149+阅读 · 2020年10月21日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

【哈工大SCIR】多模态情感分析简述

【哈工大SCIR】多模态情感分析简述

深度学习自然语言处理

33+阅读 · 2019年12月14日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

基于学生行为分析模型的高校智慧校园教育大数据应用研究

基于学生行为分析模型的高校智慧校园教育大数据应用研究

MOOC

24+阅读 · 2019年1月11日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

相关论文

Reasoning Models Know What's Important, and Encode It in Their Activations

Arxiv

0+阅读 · 6月11日

Characterizing Students' LLM Usage Behaviors and Their Association with Learning in Critical Thinking Tasks

Arxiv

0+阅读 · 5月29日

When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

Arxiv

0+阅读 · 5月26日

Explaining Too Much? Understanding How Large Language Model Reasoning Traces Influence Performance and Metacognition

Arxiv

0+阅读 · 5月25日

"I can't read your mind": A Study of Neurodivergent Computing Students' Experiences with Collaborative Active Learning

Arxiv

0+阅读 · 5月22日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 5月13日

Calibrated Multimodal Representation Learning with Missing Modalities

Arxiv

0+阅读 · 5月12日

Simulated Students in Tutoring Dialogues: Substance or Illusion?

Arxiv

0+阅读 · 5月5日

Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes

Arxiv

0+阅读 · 4月8日

From Untamed Black Box to Interpretable Pedagogical Orchestration: The Ensemble of Specialized LLMs Architecture for Adaptive Tutoring

Arxiv

0+阅读 · 3月25日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向非接触式、非稳定和长时间尺度生理信号的情感状态自动识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员