The efficacy of Multimodal Transformers in visually-rich document understanding (VrDU) is critically constrained by two inherent limitations: the lack of explicit modeling for logical reading order and the interference of visual tokens that dilutes attention on textual semantics. To address these challenges, this paper presents ROAP, a lightweight and architecture-agnostic pipeline designed to optimize attention distributions in Layout Transformers without altering their pre-trained backbones. The proposed pipeline first employs an Adaptive-XY-Gap (AXG-Tree) to robustly extract hierarchical reading sequences from complex layouts. These sequences are then integrated into the attention mechanism via a Reading-Order-Aware Relative Position Bias (RO-RPB). Furthermore, a Textual-Token Sub-block Attention Prior (TT-Prior) is introduced to adaptively suppress visual noise and enhance fine-grained text-text interactions. Extensive experiments on the FUNSD and CORD benchmarks demonstrate that ROAP consistently improves the performance of representative backbones, including LayoutLMv3 and GeoLayoutLM. These findings confirm that explicitly modeling reading logic and regulating modality interference are critical for robust document understanding, offering a scalable solution for complex layout analysis. The implementation code will be released at https://github.com/KevinYuLei/ROAP.


翻译:多模态Transformer在视觉丰富文档理解(VrDU)中的效能受到两个固有局限性的严重制约:缺乏对逻辑阅读顺序的显式建模,以及视觉标记的干扰会稀释对文本语义的注意力。为应对这些挑战,本文提出ROAP——一种轻量级且架构无关的流水线,旨在优化布局Transformer中的注意力分布,而无需改动其预训练主干网络。所提出的流水线首先采用自适应XY间隔树(AXG-Tree)从复杂布局中鲁棒地提取层次化阅读序列。这些序列随后通过阅读顺序感知相对位置偏置(RO-RPB)整合到注意力机制中。此外,本文引入了文本标记子块注意力先验(TT-Prior),以自适应地抑制视觉噪声并增强细粒度的文本-文本交互。在FUNSD和CORD基准数据集上的大量实验表明,ROAP能持续提升包括LayoutLMv3和GeoLayoutLM在内的代表性主干网络的性能。这些结果证实,显式建模阅读逻辑并调控模态干扰对于实现鲁棒的文档理解至关重要,同时为复杂布局分析提供了可扩展的解决方案。实现代码将发布于https://github.com/KevinYuLei/ROAP。

0
下载
关闭预览

相关内容

【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员