视觉优势还是语言依赖？深度剖析DeepSeek-OCR (Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR) - 专知论文

会员服务 ·

0

OCR · DeepSeek · 上下文 · 先验知识 · 知识 ·

Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR

翻译：视觉优势还是语言依赖？深度剖析DeepSeek-OCR

Yunhao Liang,Ruixuan Ying,Bo Li,Hong Li,Kai Yan,Qingwen Li,Min Yang,Okamoto Satoshi,Zhe Cui,Shiwen Ni

DeepSeek-OCR utilizes an optical 2D mapping approach to achieve high-ratio vision-text compression, claiming to decode text tokens exceeding ten times the input visual tokens. While this suggests a promising solution for the LLM long-context bottleneck, we investigate a critical question: "Visual merit or linguistic crutch - which drives DeepSeek-OCR's performance?" By employing sentence-level and word-level semantic corruption, we isolate the model's intrinsic OCR capabilities from its language priors. Results demonstrate that without linguistic support, DeepSeek-OCR's performance plummets from approximately 90% to 20%. Comparative benchmarking against 13 baseline models reveals that traditional pipeline OCR methods exhibit significantly higher robustness to such semantic perturbations than end-to-end methods. Furthermore, we find that lower visual token counts correlate with increased reliance on priors, exacerbating hallucination risks. Context stress testing also reveals a total model collapse around 10,000 text tokens, suggesting that current optical compression techniques may paradoxically aggravate the long-context bottleneck. This study empirically defines DeepSeek-OCR's capability boundaries and offers essential insights for future optimizations of the vision-text compression paradigm. We release all data, results and scripts used in this study at https://github.com/dududuck00/DeepSeekOCR.

翻译：DeepSeek-OCR采用光学二维映射方法实现高比例视觉-文本压缩，宣称能够解码超过输入视觉标记十倍数量的文本标记。尽管这为大型语言模型的长上下文瓶颈提供了潜在解决方案，我们探究了一个关键问题："驱动DeepSeek-OCR性能的究竟是视觉优势还是语言依赖？"通过实施句子级与词汇级语义破坏实验，我们将模型固有的光学字符识别能力与其语言先验知识进行分离。实验结果表明，在缺乏语言支持的情况下，DeepSeek-OCR的性能从约90%急剧下降至20%。与13个基线模型的对比基准测试显示，传统流水线式OCR方法对语义干扰的鲁棒性显著优于端到端方法。进一步研究发现，视觉标记数量的减少与模型对先验知识的依赖性增强呈正相关，这会加剧幻觉风险。上下文压力测试还揭示了模型在约10,000个文本标记处出现完全崩溃，表明当前光学压缩技术可能反而会加剧长上下文瓶颈。本研究通过实证方法界定了DeepSeek-OCR的能力边界，并为未来视觉-文本压缩范式的优化提供了关键见解。我们在https://github.com/dududuck00/DeepSeekOCR发布了本研究所用的全部数据、结果与脚本。

0

相关内容

OCR

从DeepSeek看国产AI的“后发优势”

从DeepSeek看国产AI的“后发优势”

专知会员服务

29+阅读 · 2025年2月28日

哈工大团队：首篇DeepSeek R1的多语言能力全面分析！

哈工大团队：首篇DeepSeek R1的多语言能力全面分析！

专知会员服务

43+阅读 · 2025年2月22日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

79+阅读 · 2025年2月14日

DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用

DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用

专知会员服务

53+阅读 · 2025年2月13日

DeepSeek与其他大型语言模型的比较

DeepSeek与其他大型语言模型的比较

专知会员服务

85+阅读 · 2025年2月9日

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

专知会员服务

25+阅读 · 2020年7月28日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

专知会员服务

51+阅读 · 2020年2月22日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 2月4日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression

Arxiv

0+阅读 · 1月31日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 1月29日

DeepSeek-OCR 2: Visual Causal Flow

Arxiv

0+阅读 · 1月28日

DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling

Arxiv

0+阅读 · 1月21日

Global Context Compression with Interleaved Vision-Text Transformation

Arxiv

0+阅读 · 1月15日

Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention

Arxiv

0+阅读 · 1月13日

Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR

Arxiv

0+阅读 · 1月7日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

VIP会员

文章信息

相关主题

相关VIP内容

从DeepSeek看国产AI的“后发优势”

从DeepSeek看国产AI的“后发优势”

专知会员服务

29+阅读 · 2025年2月28日

哈工大团队：首篇DeepSeek R1的多语言能力全面分析！

哈工大团队：首篇DeepSeek R1的多语言能力全面分析！

专知会员服务

43+阅读 · 2025年2月22日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

79+阅读 · 2025年2月14日

DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用

DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用

专知会员服务

53+阅读 · 2025年2月13日

DeepSeek与其他大型语言模型的比较

DeepSeek与其他大型语言模型的比较

专知会员服务

85+阅读 · 2025年2月9日

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

专知会员服务

25+阅读 · 2020年7月28日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

专知会员服务

51+阅读 · 2020年2月22日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

Deep Image Prior：深度卷积网络先天就理解自然图像

Deep Image Prior：深度卷积网络先天就理解自然图像

极市平台

10+阅读 · 2017年12月5日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 2月4日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression

Arxiv

0+阅读 · 1月31日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 1月29日

DeepSeek-OCR 2: Visual Causal Flow

Arxiv

0+阅读 · 1月28日

DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling

Arxiv

0+阅读 · 1月21日

Global Context Compression with Interleaved Vision-Text Transformation

Arxiv

0+阅读 · 1月15日

Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention

Arxiv

0+阅读 · 1月13日

Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR

Arxiv

0+阅读 · 1月7日

Natural Language Descriptions of Deep Visual Features

Arxiv

12+阅读 · 2022年1月26日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员