Understanding long-context visual information remains a fundamental challenge for vision-language models, particularly in agentic tasks such as GUI control and web navigation. While web pages and GUI environments are inherently structured documents, current VLMs typically neglect decision-oriented document understanding in their training objectives. Existing approaches primarily extend visual embeddings to process long, high-resolution inputs, but these methods are memory-intensive and impractical for locally deployable solutions. To address these issues, we propose SCoPE VLM, a document navigation expert that leverages a novel Chain of Scroll mechanism to selectively and recursively navigate documents, focusing exclusively on relevant segments. We introduce a dedicated data generation pipeline to construct informative Chain of Scroll trajectories and Episodic Group Relative Policy Optimization, a tailored reinforcement learning method to bridge the gap between training and inference. Our method substantially reduces memory usage and effectively models human-like reading behaviors. To the best of our knowledge, SCoPE VLM is the first framework to explicitly model agentic reading patterns in multi-page document question answering, advancing the capabilities of multimodal agents.


翻译:理解长上下文视觉信息仍然是视觉语言模型面临的一项基本挑战,尤其是在图形用户界面控制和网页导航等智能体任务中。虽然网页和图形用户界面环境本质上是结构化文档,但当前的视觉语言模型通常在其训练目标中忽略了面向决策的文档理解。现有方法主要通过扩展视觉嵌入来处理长序列、高分辨率输入,但这些方法内存消耗大,对于可本地部署的解决方案而言并不实用。为解决这些问题,我们提出了SCoPE VLM,这是一个文档导航专家模型,它利用一种新颖的滚动链机制来选择性、递归地浏览文档,仅聚焦于相关片段。我们引入了一个专用的数据生成流程来构建信息丰富的滚动链轨迹,以及一种定制的强化学习方法——情景组相对策略优化,以弥合训练与推理之间的差距。我们的方法显著降低了内存使用量,并有效模拟了类人的阅读行为。据我们所知,SCoPE VLM是首个在多页文档问答任务中显式建模智能体阅读模式的框架,它推动了多模态智能体能力的发展。

0
下载
关闭预览

相关内容

【博士论文】基于多模态基础模型的上下文学习
专知会员服务
22+阅读 · 2025年12月17日
视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
【KAUST博士论文】高效视觉语言基础模型学习,197页pdf
专知会员服务
36+阅读 · 2024年1月1日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员