DeepSeek-OCR utilizes an optical 2D mapping approach to achieve high-ratio vision-text compression, claiming to decode text tokens exceeding ten times the input visual tokens. While this suggests a promising solution for the LLM long-context bottleneck, we investigate a critical question: "Visual merit or linguistic crutch - which drives DeepSeek-OCR's performance?" By employing sentence-level and word-level semantic corruption, we isolate the model's intrinsic OCR capabilities from its language priors. Results demonstrate that without linguistic support, DeepSeek-OCR's performance plummets from approximately 90% to 20%. Comparative benchmarking against 13 baseline models reveals that traditional pipeline OCR methods exhibit significantly higher robustness to such semantic perturbations than end-to-end methods. Furthermore, we find that lower visual token counts correlate with increased reliance on priors, exacerbating hallucination risks. Context stress testing also reveals a total model collapse around 10,000 text tokens, suggesting that current optical compression techniques may paradoxically aggravate the long-context bottleneck. This study empirically defines DeepSeek-OCR's capability boundaries and offers essential insights for future optimizations of the vision-text compression paradigm. We release all data, results and scripts used in this study at https://github.com/dududuck00/DeepSeekOCR.


翻译:DeepSeek-OCR采用光学二维映射方法实现高比例视觉-文本压缩,宣称能够解码超过输入视觉标记十倍数量的文本标记。尽管这为大型语言模型的长上下文瓶颈提供了潜在解决方案,我们探究了一个关键问题:"驱动DeepSeek-OCR性能的究竟是视觉优势还是语言依赖?"通过实施句子级与词汇级语义破坏实验,我们将模型固有的光学字符识别能力与其语言先验知识进行分离。实验结果表明,在缺乏语言支持的情况下,DeepSeek-OCR的性能从约90%急剧下降至20%。与13个基线模型的对比基准测试显示,传统流水线式OCR方法对语义干扰的鲁棒性显著优于端到端方法。进一步研究发现,视觉标记数量的减少与模型对先验知识的依赖性增强呈正相关,这会加剧幻觉风险。上下文压力测试还揭示了模型在约10,000个文本标记处出现完全崩溃,表明当前光学压缩技术可能反而会加剧长上下文瓶颈。本研究通过实证方法界定了DeepSeek-OCR的能力边界,并为未来视觉-文本压缩范式的优化提供了关键见解。我们在https://github.com/dududuck00/DeepSeekOCR发布了本研究所用的全部数据、结果与脚本。

0
下载
关闭预览

相关内容

从DeepSeek看国产AI的“后发优势”
专知会员服务
29+阅读 · 2025年2月28日
哈工大团队:首篇DeepSeek R1的多语言能力全面分析!
专知会员服务
43+阅读 · 2025年2月22日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月28日
Arxiv
12+阅读 · 2022年1月26日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员