GLM-OCR Technical Report - 专知论文

会员服务 ·

0

OCR · 解码 · 识别 · 令牌 · 系统 ·

GLM-OCR Technical Report

翻译：GLM-OCR技术报告

Shuaiqi Duan,Yadong Xue,Weihan Wang,Zhe Su,Huan Liu,Sheng Yang,Guobing Gan,Guo Wang,Zihan Wang,Shengdong Yan,Dexin Jin,Yuxuan Zhang,Guohong Wen,Yanfeng Wang,Yutao Zhang,Xiaohan Zhang,Wenyi Hong,Yukuo Cen,Da Yin,Bin Chen,Wenmeng Yu,Xiaotao Gu,Jie Tang

GLM-OCR is an efficient 0.9B-parameter compact multimodal model designed for real-world document understanding. It combines a 0.4B-parameter CogViT visual encoder with a 0.5B-parameter GLM language decoder, achieving a strong balance between computational efficiency and recognition performance. To address the inefficiency of standard autoregressive decoding in deterministic OCR tasks, GLM-OCR introduces a Multi-Token Prediction (MTP) mechanism that predicts multiple tokens per step, significantly improving decoding throughput while keeping memory overhead low through shared parameters. At the system level, a two-stage pipeline is adopted: PP-DocLayout-V3 first performs layout analysis, followed by parallel region-level recognition. Extensive evaluations on public benchmarks and industrial scenarios show that GLM-OCR achieves competitive or state-of-the-art performance in document parsing, text and formula transcription, table structure recovery, and key information extraction. Its compact architecture and structured generation make it suitable for both resource-constrained edge deployment and large-scale production systems.

翻译：GLM-OCR是一种高效的0.9B参数紧凑型多模态模型，专为真实世界文档理解而设计。它结合了一个0.4B参数的CogViT视觉编码器和一个0.5B参数的GLM语言解码器，在计算效率与识别性能之间实现了良好的平衡。为解决确定性OCR任务中标准自回归解码的低效问题，GLM-OCR引入了多令牌预测机制，该机制每步预测多个令牌，通过共享参数保持较低内存开销的同时，显著提升了解码吞吐量。在系统层面，采用了两阶段流水线：PP-DocLayout-V3首先进行版面分析，随后进行并行区域级识别。在公开基准和工业场景上的广泛评估表明，GLM-OCR在文档解析、文本与公式转录、表格结构恢复以及关键信息提取任务中取得了具有竞争力或最先进的性能。其紧凑的架构和结构化生成特性使其既适用于资源受限的边缘部署，也适用于大规模生产系统。

0

相关内容

OCR

GLM-5：从“氛围编程”（Vibe Coding）迈向智能体化工程（Agentic Engineering）

GLM-5：从“氛围编程”（Vibe Coding）迈向智能体化工程（Agentic Engineering）

专知会员服务

14+阅读 · 2月19日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

11+阅读 · 2025年5月9日

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

23+阅读 · 2024年8月22日

谷歌开源模型系列「Gemma」技术报告，中英文版

谷歌开源模型系列「Gemma」技术报告，中英文版

专知会员服务

47+阅读 · 2024年2月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

专知会员服务

24+阅读 · 2023年7月29日

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

专知会员服务

29+阅读 · 2023年6月20日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

33+阅读 · 2023年5月4日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

携程自研的OCR项目

携程自研的OCR项目

专知

25+阅读 · 2019年8月12日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

tensorflow LSTM + CTC实现端到端OCR

tensorflow LSTM + CTC实现端到端OCR

机器学习研究会

26+阅读 · 2017年11月16日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

字符识别(OCR)相关工具/库/教材/论文等资源整理

字符识别(OCR)相关工具/库/教材/论文等资源整理

深度学习与NLP

19+阅读 · 2017年10月15日

跨尺度空间全方位三维激光传感原理与关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

可控制备的纳米级钨针尖应用于表面缺陷的扫描隧道显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

大型薄壁零件在机测量数据高效提取方法与关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

纳米修饰与3D打印联用技术在医用材料中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Arxiv

0+阅读 · 4月29日

GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

Arxiv

0+阅读 · 4月14日

Meta-analysis with the glmmTMB R package

Arxiv

0+阅读 · 4月5日

SpecXMaster Technical Report

Arxiv

0+阅读 · 3月26日

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Arxiv

0+阅读 · 3月26日

Composer 2 Technical Report

Arxiv

0+阅读 · 3月26日

Leum-VL Technical Report

Arxiv

0+阅读 · 3月20日

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

Arxiv

0+阅读 · 3月18日

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Arxiv

0+阅读 · 3月16日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

6+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

13+阅读 · 5月29日

相关VIP内容

GLM-5：从“氛围编程”（Vibe Coding）迈向智能体化工程（Agentic Engineering）

GLM-5：从“氛围编程”（Vibe Coding）迈向智能体化工程（Agentic Engineering）

专知会员服务

14+阅读 · 2月19日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

11+阅读 · 2025年5月9日

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

23+阅读 · 2024年8月22日

谷歌开源模型系列「Gemma」技术报告，中英文版

谷歌开源模型系列「Gemma」技术报告，中英文版

专知会员服务

47+阅读 · 2024年2月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

专知会员服务

24+阅读 · 2023年7月29日

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

《3DLIVE技术分析：研究三维点云数据集的分割、分类和目标检测》49页报告，美空军研究实验室

专知会员服务

29+阅读 · 2023年6月20日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

33+阅读 · 2023年5月4日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

携程自研的OCR项目

携程自研的OCR项目

专知

25+阅读 · 2019年8月12日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

tensorflow LSTM + CTC实现端到端OCR

tensorflow LSTM + CTC实现端到端OCR

机器学习研究会

26+阅读 · 2017年11月16日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

字符识别(OCR)相关工具/库/教材/论文等资源整理

字符识别(OCR)相关工具/库/教材/论文等资源整理

深度学习与NLP

19+阅读 · 2017年10月15日

相关论文

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Arxiv

0+阅读 · 4月29日

GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

Arxiv

0+阅读 · 4月14日

Meta-analysis with the glmmTMB R package

Arxiv

0+阅读 · 4月5日

SpecXMaster Technical Report

Arxiv

0+阅读 · 3月26日

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

Arxiv

0+阅读 · 3月26日

Composer 2 Technical Report

Arxiv

0+阅读 · 3月26日

Leum-VL Technical Report

Arxiv

0+阅读 · 3月20日

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

Arxiv

0+阅读 · 3月18日

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Arxiv

0+阅读 · 3月16日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

相关基金

跨尺度空间全方位三维激光传感原理与关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

可控制备的纳米级钨针尖应用于表面缺陷的扫描隧道显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

大型薄壁零件在机测量数据高效提取方法与关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

纳米修饰与3D打印联用技术在医用材料中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员