When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR - 专知论文

会员服务 ·

0

数学 · OCR · 识别 · 转录 · BLEU ·

When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

翻译：当VLMs"修正"学生答案：多行手写数学OCR评估中的过度纠正识别与惩罚

Jin Seong,Wencke Liermann,Minho Kim,Jong-hun Shin,Soojong Lim

Accurate transcription of handwritten mathematics is crucial for educational AI systems, yet current benchmarks fail to evaluate this capability properly. Most prior studies focus on single-line expressions and rely on lexical metrics such as BLEU, which fail to assess the semantic reasoning across multi-line student solutions. In this paper, we present the first systematic study of multi-line handwritten math Optical Character Recognition (OCR), revealing a critical failure mode of Vision-Language Models (VLMs): over-correction. Instead of faithfully transcribing a student's work, these models often "fix" errors, thereby hiding the very mistakes an educational assessment aims to detect. To address this, we propose PINK (Penalized INK-based score), a semantic evaluation metric that leverages a Large Language Model (LLM) for rubric-based grading and explicitly penalizes over-correction. Our comprehensive evaluation of 15 state-of-the-art VLMs on the FERMAT dataset reveals substantial ranking reversals compared to BLEU: models like GPT-4o are heavily penalized for aggressive over-correction, whereas Gemini 2.5 Flash emerges as the most faithful transcriber. Furthermore, human expert studies show that PINK aligns significantly better with human judgment (55.0% preference over BLEU's 39.5%), providing a more reliable evaluation framework for handwritten math OCR in educational settings.

翻译：手写数学公式的准确转录对于教育AI系统至关重要，但现有基准测试未能恰当评估该能力。多数先前研究聚焦于单行表达式，依赖BLEU等词法指标，难以评估跨多行学生解答的语义推理。本文首次系统研究多行手写数学光学字符识别，揭示视觉语言模型的关键失效模式：过度纠正。这些模型不是忠实地转录学生作业，而是常常"修正"错误，从而隐藏了教育评估旨在检测的原始失误。针对此问题，我们提出PINK（基于惩罚性INK得分），一种利用大语言模型进行评分标准分级的语义评估指标，明确惩罚过度纠正。我们在FERMAT数据集上对15个最先进的视觉语言模型进行全面评估，发现其排名相比BLEU出现显著翻转：GPT-4o等模型因激进的过度纠正受到严厉惩罚，而Gemini 2.5 Flash成为最忠实的转录器。此外，人类专家研究表明，PINK与人类判断的一致性显著更高（55.0%偏好度，优于BLEU的39.5%），为教育场景中的手写数学OCR提供了更可靠的评估框架。

0

相关内容

数学是关于数量、结构、变化等主题的探索。

[ICML 2026] 诊断与纠正多模态扩散Transformer中的概念遗漏

[ICML 2026] 诊断与纠正多模态扩散Transformer中的概念遗漏

专知会员服务

6+阅读 · 5月16日

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

专知会员服务

20+阅读 · 2024年9月14日

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知会员服务

21+阅读 · 2021年2月19日

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【论文】欺骗学习（Learning by Cheating）

【论文】欺骗学习（Learning by Cheating）

专知会员服务

28+阅读 · 2020年1月3日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知

11+阅读 · 2021年2月19日

最新《多任务学习》综述，39页pdf

最新《多任务学习》综述，39页pdf

专知

28+阅读 · 2020年7月10日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

基于面部表情的学习困惑自动识别法

基于面部表情的学习困惑自动识别法

MOOC

10+阅读 · 2018年9月17日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

中国科学院自动化研究所

10+阅读 · 2017年11月16日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

MLLMs Get It Right, Then Get It Wrong: Tracing and Correcting Late-Layer Textual Bias

Arxiv

0+阅读 · 6月16日

When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents

Arxiv

0+阅读 · 6月16日

Simulating Students' Java Programming Errors with Large Language Models

Arxiv

0+阅读 · 6月12日

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

Towards Fully Automated Exam Grading: Fairness-Aware Recognition of Handwritten Answers with Foundation Models

Arxiv

0+阅读 · 6月9日

Analyzing Training-Free Corruption Detection for Object Detection Datasets

Arxiv

0+阅读 · 6月9日

CORRECT: COndensed eRror RECognition via knowledge Transfer in multi-agent systems

Arxiv

0+阅读 · 6月8日

PaintBench: Deterministic Evaluation of Precise Visual Editing

Arxiv

0+阅读 · 5月29日

Automated Grading of Handwritten Mathematics Using Vision-Capable LLMs

Arxiv

0+阅读 · 5月18日

Vocabulary Hijacking in LVLMs: Unveiling Critical Attention Heads by Excluding Inert Tokens to Mitigate Hallucination

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

[ICML 2026] 诊断与纠正多模态扩散Transformer中的概念遗漏

[ICML 2026] 诊断与纠正多模态扩散Transformer中的概念遗漏

专知会员服务

6+阅读 · 5月16日

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

专知会员服务

20+阅读 · 2024年9月14日

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知会员服务

21+阅读 · 2021年2月19日

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【论文】欺骗学习（Learning by Cheating）

【论文】欺骗学习（Learning by Cheating）

专知会员服务

28+阅读 · 2020年1月3日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知

11+阅读 · 2021年2月19日

最新《多任务学习》综述，39页pdf

最新《多任务学习》综述，39页pdf

专知

28+阅读 · 2020年7月10日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

基于面部表情的学习困惑自动识别法

基于面部表情的学习困惑自动识别法

MOOC

10+阅读 · 2018年9月17日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

中国科学院自动化研究所

10+阅读 · 2017年11月16日

相关论文

MLLMs Get It Right, Then Get It Wrong: Tracing and Correcting Late-Layer Textual Bias

Arxiv

0+阅读 · 6月16日

When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents

Arxiv

0+阅读 · 6月16日

Simulating Students' Java Programming Errors with Large Language Models

Arxiv

0+阅读 · 6月12日

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

Towards Fully Automated Exam Grading: Fairness-Aware Recognition of Handwritten Answers with Foundation Models

Arxiv

0+阅读 · 6月9日

Analyzing Training-Free Corruption Detection for Object Detection Datasets

Arxiv

0+阅读 · 6月9日

CORRECT: COndensed eRror RECognition via knowledge Transfer in multi-agent systems

Arxiv

0+阅读 · 6月8日

PaintBench: Deterministic Evaluation of Precise Visual Editing

Arxiv

0+阅读 · 5月29日

Automated Grading of Handwritten Mathematics Using Vision-Capable LLMs

Arxiv

0+阅读 · 5月18日

Vocabulary Hijacking in LVLMs: Unveiling Critical Attention Heads by Excluding Inert Tokens to Mitigate Hallucination

Arxiv

0+阅读 · 5月11日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员