We propose a novel framework to evaluate the robustness of transformer-based form field extraction methods via form attacks. We introduce 14 novel form transformations to evaluate the vulnerability of the state-of-the-art field extractors against form attacks from both OCR level and form level, including OCR location/order rearrangement, form background manipulation and form field-value augmentation. We conduct robustness evaluation using real invoices and receipts, and perform comprehensive research analysis. Experimental results suggest that the evaluated models are very susceptible to form perturbations such as the variation of field-values (~15% drop in F1 score), the disarrangement of input text order(~15% drop in F1 score) and the disruption of the neighboring words of field-values(~10% drop in F1 score). Guided by the analysis, we make recommendations to improve the design of field extractors and the process of data collection.


翻译:我们提出一个新的框架,以评价以变压器为基础的以形式为基础的实地抽取方法通过形式攻击的稳健性。我们引入了14种新形式变换,以评价最先进的实地抽取器在从OCR级别和形式级别(包括OCR位置/顺序重新安排、背景操作和外地价值增殖形式)受到形式攻击的脆弱性。我们利用真实的发票和收据进行稳健性评价,并进行全面的研究分析。实验结果表明,经评估的模型非常容易形成干扰,例如外地价值的变化(F1分下降15%)、输入文本顺序脱序(F1分下降15%)和外地价值相邻词的中断(F1分下降10% ) 。根据分析,我们提出了改进外地提取器设计和数据收集过程的建议。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2021年7月10日
专知会员服务
16+阅读 · 2021年6月6日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
专知会员服务
26+阅读 · 2021年1月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
20+阅读 · 2019年10月9日
细粒度情感分析任务(ABSA)的最新进展
PaperWeekly
18+阅读 · 2020年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
3+阅读 · 2021年10月14日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关资讯
细粒度情感分析任务(ABSA)的最新进展
PaperWeekly
18+阅读 · 2020年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员