GLM-OCR is an efficient 0.9B-parameter compact multimodal model designed for real-world document understanding. It combines a 0.4B-parameter CogViT visual encoder with a 0.5B-parameter GLM language decoder, achieving a strong balance between computational efficiency and recognition performance. To address the inefficiency of standard autoregressive decoding in deterministic OCR tasks, GLM-OCR introduces a Multi-Token Prediction (MTP) mechanism that predicts multiple tokens per step, significantly improving decoding throughput while keeping memory overhead low through shared parameters. At the system level, a two-stage pipeline is adopted: PP-DocLayout-V3 first performs layout analysis, followed by parallel region-level recognition. Extensive evaluations on public benchmarks and industrial scenarios show that GLM-OCR achieves competitive or state-of-the-art performance in document parsing, text and formula transcription, table structure recovery, and key information extraction. Its compact architecture and structured generation make it suitable for both resource-constrained edge deployment and large-scale production systems.


翻译:GLM-OCR是一种高效的0.9B参数紧凑型多模态模型,专为真实世界文档理解而设计。它结合了一个0.4B参数的CogViT视觉编码器和一个0.5B参数的GLM语言解码器,在计算效率与识别性能之间实现了良好的平衡。为解决确定性OCR任务中标准自回归解码的低效问题,GLM-OCR引入了多令牌预测机制,该机制每步预测多个令牌,通过共享参数保持较低内存开销的同时,显著提升了解码吞吐量。在系统层面,采用了两阶段流水线:PP-DocLayout-V3首先进行版面分析,随后进行并行区域级识别。在公开基准和工业场景上的广泛评估表明,GLM-OCR在文档解析、文本与公式转录、表格结构恢复以及关键信息提取任务中取得了具有竞争力或最先进的性能。其紧凑的架构和结构化生成特性使其既适用于资源受限的边缘部署,也适用于大规模生产系统。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
11+阅读 · 2025年5月9日
谷歌开源模型系列「Gemma」技术报告,中英文版
专知会员服务
47+阅读 · 2024年2月22日
《TextCycleGAN 技术报告》
专知会员服务
33+阅读 · 2023年5月4日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
携程自研的OCR项目
专知
25+阅读 · 2019年8月12日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
字符识别(OCR)相关工具/库/教材/论文等资源整理
深度学习与NLP
19+阅读 · 2017年10月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月3日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月17日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月5日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
3+阅读 · 4月12日
相关资讯
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
携程自研的OCR项目
专知
25+阅读 · 2019年8月12日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
字符识别(OCR)相关工具/库/教材/论文等资源整理
深度学习与NLP
19+阅读 · 2017年10月15日
相关论文
Arxiv
0+阅读 · 3月3日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月17日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月5日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员