The extraction and use of diverse knowledge from numerous documents is a pressing challenge in intelligent information retrieval. Documents contain elements that require different recognition methods. Table recognition typically consists of three subtasks, namely table structure, cell position and cell content recognition. Recent models have achieved excellent recognition with a combination of multi-task learning, local attention, and mutual learning. However, their effectiveness has not been fully explained, and they require a long period of time for inference. This paper presents a novel multi-task model that utilizes non-causal attention to capture the entire table structure, and a parallel inference algorithm for faster cell content inference. The superiority is demonstrated both visually and statistically on two large public datasets.


翻译:从海量文档中提取并利用多样化知识是智能信息检索领域亟待解决的挑战。文档包含需要不同识别方法的多种元素。表格识别通常包含三个子任务:表格结构识别、单元格位置识别和单元格内容识别。现有模型通过结合多任务学习、局部注意力机制和相互学习策略已取得优异识别效果,但其有效性尚未得到充分解释,且推理时间较长。本文提出一种新颖的多任务模型,该模型利用非因果注意力机制捕捉完整表格结构,并采用并行推理算法加速单元格内容推断。在两个大型公开数据集上的可视化与统计结果均证明了该方法的优越性。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
基于语言模型增强的中文关系抽取方法
专知会员服务
57+阅读 · 2023年9月18日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
【KDD2021】双重图强化神经推荐模型
专知会员服务
13+阅读 · 2021年11月10日
专知会员服务
22+阅读 · 2021年8月20日
专知会员服务
112+阅读 · 2020年6月26日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
零样本图像识别综述论文
专知
22+阅读 · 2020年4月4日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
基于语言模型增强的中文关系抽取方法
专知会员服务
57+阅读 · 2023年9月18日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
【KDD2021】双重图强化神经推荐模型
专知会员服务
13+阅读 · 2021年11月10日
专知会员服务
22+阅读 · 2021年8月20日
专知会员服务
112+阅读 · 2020年6月26日
相关资讯
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
零样本图像识别综述论文
专知
22+阅读 · 2020年4月4日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员