大量的研究成果表明,大规模预训练语言模型通过自监督任务,可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效的提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息。为了解决这一问题,研究员们提出了一种通用文档预训练模型LayoutLM[1][2],选择了文档结构信息(Document Layout Information)和视觉信息(Visual Information)进行建模,让模型在预训练阶段进行多模态对齐。

在实际使用的过程中,LayoutLM 仅需要极少的标注数据即可达到行业领先的水平。研究员们在三个不同类型的下游任务中进行了验证:表单理解(Form Understanding)、票据理解(Receipt Understanding),以及文档图像分类(Document Image Classification)。实验结果表明,在预训练中引入的结构和视觉信息,能够有效地迁移到下游任务中,最终在三个下游任务中都取得了显著的准确率提升。

成为VIP会员查看完整内容
32

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
专知会员服务
39+阅读 · 2020年10月15日
专知会员服务
19+阅读 · 2020年10月13日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
63+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
27+阅读 · 2020年7月23日
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
46+阅读 · 2020年6月18日
专知会员服务
100+阅读 · 2020年2月20日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
基于图卷积文本模型的跨模态信息检索
专知
9+阅读 · 2019年8月3日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
哪种词向量模型更胜一筹?Word2Vec,WordRank or FastText?
全球人工智能
8+阅读 · 2017年10月17日
Arxiv
5+阅读 · 2019年4月21日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
VIP会员
最新内容
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
1+阅读 · 今天15:53
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
1+阅读 · 今天15:04
马赛克防御与分布式指挥:伊朗的回击(中文版)
《基于理论的威慑效能评估》
专知会员服务
3+阅读 · 今天14:48
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
7+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
11+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
相关VIP内容
相关资讯
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
基于图卷积文本模型的跨模态信息检索
专知
9+阅读 · 2019年8月3日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
哪种词向量模型更胜一筹?Word2Vec,WordRank or FastText?
全球人工智能
8+阅读 · 2017年10月17日
微信扫码咨询专知VIP会员