DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition - 专知论文

会员服务 ·

0

解码 · 识别 · 内存 · 文本识别 · Softmax ·

DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

翻译：DRetHTR：用于手写文本识别的线性时间仅解码器保留网络

Changhun Kim,Martin Mayr,Thomas Gorges,Fei Wu,Mathias Seuret,Andreas Maier,Vincent Christlein

from arxiv, Submitted to Pattern Recognition, 11 pages + 2-page appendix, 7 figures, 12 tables

State-of-the-art handwritten text recognition (HTR) systems commonly use Transformers, whose growing key-value (KV) cache makes decoding slow and memory-intensive. We introduce DRetHTR, a decoder-only model built on Retentive Networks (RetNet). Compared to an equally sized decoder-only Transformer baseline, DRetHTR delivers 1.6-1.9x faster inference with 38-42% less memory usage, without loss of accuracy. By replacing softmax attention with softmax-free retention and injecting multi-scale sequential priors, DRetHTR avoids a growing KV cache: decoding is linear in output length in both time and memory. To recover the local-to-global inductive bias of attention, we propose layer-wise gamma scaling, which progressively enlarges the effective retention horizon in deeper layers. This encourages early layers to model short-range dependencies and later layers to capture broader context, mitigating the flexibility gap introduced by removing softmax. Consequently, DRetHTR achieves best reported test character error rates of 2.26% (IAM-A, en), 1.81% (RIMES, fr), and 3.46% (Bentham, en), and is competitive on READ-2016 (de) with 4.21%. This demonstrates that decoder-only RetNet enables Transformer-level HTR accuracy with substantially improved decoding speed and memory efficiency.

翻译：当前最先进的手写文本识别系统通常使用Transformer模型，但其不断增长的关键值缓存导致解码速度慢且内存占用高。我们提出了DRetHTR，一种基于保留网络构建的仅解码器模型。与同等规模的仅解码器Transformer基线相比，DRetHTR在保持精度不变的情况下，实现了1.6-1.9倍的推理加速，并减少了38-42%的内存使用。通过用无需softmax的保留机制替代softmax注意力，并注入多尺度序列先验，DRetHTR避免了关键值缓存的增长：解码过程在时间和内存上均与输出长度呈线性关系。为了恢复注意力机制从局部到全局的归纳偏置，我们提出了层间伽马缩放策略，该策略在更深层中逐步扩大有效保留范围。这促使浅层建模短程依赖，深层捕获更广泛的上下文，从而缓解因移除softmax而引入的灵活性差距。因此，DRetHTR在多个数据集上取得了目前报道的最佳测试字符错误率：IAM-A（英文）为2.26%，RIMES（法文）为1.81%，Bentham（英文）为3.46%，并在READ-2016（德文）上以4.21%的错误率表现出竞争力。这表明仅解码器的保留网络能够实现Transformer级别的手写文本识别精度，同时显著提升解码速度和内存效率。

0

相关内容

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

专知会员服务

27+阅读 · 2023年11月12日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

如何用latext画神经网络？这个PlotNeuralNet能帮到你

如何用latext画神经网络？这个PlotNeuralNet能帮到你

专知会员服务

26+阅读 · 2022年1月15日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

专知

18+阅读 · 2020年10月22日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

DRN - 扩张残留网络（图像分类和语义分割）

DRN - 扩张残留网络（图像分类和语义分割）

AI科技评论

18+阅读 · 2019年8月19日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

OCR开源库（文本区域定位和文本识别）：github

OCR开源库（文本区域定位和文本识别）：github

数据挖掘入门与实战

28+阅读 · 2017年11月26日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于全数字化的闪烁脉冲时间标记

国家自然科学基金

1+阅读 · 2015年12月31日

结合信道编码的低开销网络编码机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Arxiv

0+阅读 · 3月4日

Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR

Arxiv

0+阅读 · 2月13日

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory

Arxiv

0+阅读 · 2月12日

CER-HV: A CER-Based Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Arxiv

0+阅读 · 2月11日

RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse

Arxiv

0+阅读 · 2月10日

In-context Time Series Predictor

Arxiv

0+阅读 · 2月5日

Spectral-Aligned Pruning for Universal Error-Correcting Code Transformers

Arxiv

0+阅读 · 2月4日

RexBERT: Context Specialized Bidirectional Encoders for E-commerce

Arxiv

0+阅读 · 2月4日

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

Arxiv

0+阅读 · 2月4日

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

2+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

2+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

4+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

8+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

10+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

8+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

3+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

3+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

3+阅读 · 4月24日

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

17+阅读 · 4月24日

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

4+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

5+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

5+阅读 · 4月23日

相关VIP内容

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

【NeurIPS 2023】高性能Transformer用于表格结构识别需要早期卷积

专知会员服务

27+阅读 · 2023年11月12日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

如何用latext画神经网络？这个PlotNeuralNet能帮到你

如何用latext画神经网络？这个PlotNeuralNet能帮到你

专知会员服务

26+阅读 · 2022年1月15日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

战场之外的较量：美伊冲突中的认知战与心理博弈

【NTU博士论文】3D人体动作生成

以色列军事技术对美国军力发展的持续性赋能

相关资讯

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

专知

18+阅读 · 2020年10月22日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

DRN - 扩张残留网络（图像分类和语义分割）

DRN - 扩张残留网络（图像分类和语义分割）

AI科技评论

18+阅读 · 2019年8月19日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

OCR开源库（文本区域定位和文本识别）：github

OCR开源库（文本区域定位和文本识别）：github

数据挖掘入门与实战

28+阅读 · 2017年11月26日

相关论文

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Arxiv

0+阅读 · 3月4日

Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR

Arxiv

0+阅读 · 2月13日

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory

Arxiv

0+阅读 · 2月12日

CER-HV: A CER-Based Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Arxiv

0+阅读 · 2月11日

RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse

Arxiv

0+阅读 · 2月10日

In-context Time Series Predictor

Arxiv

0+阅读 · 2月5日

Spectral-Aligned Pruning for Universal Error-Correcting Code Transformers

Arxiv

0+阅读 · 2月4日

RexBERT: Context Specialized Bidirectional Encoders for E-commerce

Arxiv

0+阅读 · 2月4日

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

Arxiv

0+阅读 · 2月4日

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Arxiv

0+阅读 · 2月2日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于全数字化的闪烁脉冲时间标记

国家自然科学基金

1+阅读 · 2015年12月31日

结合信道编码的低开销网络编码机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员