GLM-OCR is an efficient 0.9B-parameter compact multimodal model designed for real-world document understanding. It combines a 0.4B-parameter CogViT visual encoder with a 0.5B-parameter GLM language decoder, achieving a strong balance between computational efficiency and recognition performance. To address the inefficiency of standard autoregressive decoding in deterministic OCR tasks, GLM-OCR introduces a Multi-Token Prediction (MTP) mechanism that predicts multiple tokens per step, significantly improving decoding throughput while keeping memory overhead low through shared parameters. At the system level, a two-stage pipeline is adopted: PP-DocLayout-V3 first performs layout analysis, followed by parallel region-level recognition. Extensive evaluations on public benchmarks and industrial scenarios show that GLM-OCR achieves competitive or state-of-the-art performance in document parsing, text and formula transcription, table structure recovery, and key information extraction. Its compact architecture and structured generation make it suitable for both resource-constrained edge deployment and large-scale production systems.


翻译:GLM-OCR是一种高效的0.9B参数紧凑型多模态模型,专为真实世界文档理解而设计。它结合了一个0.4B参数的CogViT视觉编码器和一个0.5B参数的GLM语言解码器,在计算效率与识别性能之间实现了良好的平衡。为解决确定性OCR任务中标准自回归解码的低效问题,GLM-OCR引入了多令牌预测机制,该机制每步预测多个令牌,通过共享参数保持较低内存开销的同时,显著提升了解码吞吐量。在系统层面,采用了两阶段流水线:PP-DocLayout-V3首先进行版面分析,随后进行并行区域级识别。在公开基准和工业场景上的广泛评估表明,GLM-OCR在文档解析、文本与公式转录、表格结构恢复以及关键信息提取任务中取得了具有竞争力或最先进的性能。其紧凑的架构和结构化生成特性使其既适用于资源受限的边缘部署,也适用于大规模生产系统。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
11+阅读 · 2025年5月9日
谷歌开源模型系列「Gemma」技术报告,中英文版
专知会员服务
47+阅读 · 2024年2月22日
《TextCycleGAN 技术报告》
专知会员服务
33+阅读 · 2023年5月4日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
携程自研的OCR项目
专知
25+阅读 · 2019年8月12日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
字符识别(OCR)相关工具/库/教材/论文等资源整理
深度学习与NLP
19+阅读 · 2017年10月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月5日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月20日
Arxiv
0+阅读 · 3月3日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关资讯
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
携程自研的OCR项目
专知
25+阅读 · 2019年8月12日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
字符识别(OCR)相关工具/库/教材/论文等资源整理
深度学习与NLP
19+阅读 · 2017年10月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员