Visual Text Comprehension (VTC) renders text into images for a vision-language model (VLM) to read, sidestepping LLM context-window limits and powering applications from long-page OCR to multi-page memory QA. Yet existing VTC pipelines treat rendering and layout as a fixed, content-agnostic preprocessing step and offer little mechanistic understanding of how VLMs internally process visualized text. Through a focused empirical study on VTC QA tasks, we reveal that VLMs exhibit a localization-without-utilization regime: evidence-localizing attention emerges sharply in the middle-to-late layers and is largely decoupled from answer correctness, yet simply enlarging the localized spans on the rendered page recovers a large fraction of the failures. Building on these observations, we propose AGAR (Attention-Guided Adaptive Rendering), a training-free, model-agnostic method that leverages a VLM's own middle-to-late layer attention to identify the top-K important visual patches, maps them back to word spans, and re-renders the page with those spans enlarged before re-inferring the answer. Extensive experiments across nine VTC benchmarks (short-form, long-context, and multi-page memory QA) and four VLM backbones show that AGAR (i)consistently improves off-the-shelf VLMs as a plug-and-play enhancement, (ii)composes with VLM post-training to yield further gains, and (iii)remains robust under both visual- and text-side input degradation.


翻译:视觉文本理解将文本呈现为图像,供视觉语言模型阅读,从而规避了大语言模型上下文窗口限制,并推动了从长篇幅OCR到多页面记忆问答等应用的发展。然而,现有视觉文本理解流程将渲染和布局视为固定且内容无关的预处理步骤,对视觉语言模型如何内部处理可视化文本缺乏机制性理解。通过在视觉文本理解问答任务上的聚焦实证研究,我们揭示了视觉语言模型的一种“定位无利用”机制:证据定位注意力在中间至深层急剧出现,且与答案正确性基本解耦,但简单放大渲染页面中这些定位的文本片段即可恢复大部分失败案例。基于这些发现,我们提出了AGAR(注意力引导自适应渲染),这是一种无需训练、模型无关的方法,利用视觉语言模型自身中间至深层的注意力机制识别前K个重要视觉区域,将其映射回单词片段,并重新渲染包含这些放大片段的页面,再推断答案。在九个视觉文本理解基准(短文本、长上下文、多页面记忆问答)和四个视觉语言模型主干上的广泛实验表明,AGAR能够:(i) 作为即插即用增强模块稳定提升现成视觉语言模型的性能;(ii) 与视觉语言模型后训练结合产生进一步增益;(iii) 在视觉和文本侧输入质量下降时保持鲁棒性。

0
下载
关闭预览

相关内容

文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
基于文本的3D视觉定位综述:要素、最新进展与未来方向
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月15日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员