Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; then, only these regions are cropped at full resolution and processed in a subsequent reasoning stage. This approach reduces computational cost while preserving fine-grained visual details where necessary. A major challenge lies in inferring which regions are truly relevant to a given query. Recent related methods often fail in the first stage after input-image downsampling, due to perception-driven reasoning, where clear visual information is required for effective reasoning. To address this issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs reasoning-driven perception-leveraging multimodal context to determine where to focus. Our model can account for perceptual uncertainty, expanding the cropped region to cover visually ambiguous areas for answering questions. To this end, we develop simple yet effective reward components in a reinforcement learning framework for coarse-to-fine perception. Across multiple datasets, our approach delivers higher accuracy than the original model and competitive methods, with greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V* benchmark by 4.7 points while using only 23% of the vision tokens, achieving a 3x inference speedup. The code and models can be found at: https://github.com/nota-github/ERGO.


翻译:高效处理高分辨率图像对于现实世界的视觉语言应用至关重要。然而,现有的大型视觉语言模型(LVLMs)因视觉令牌数量庞大而产生巨大的计算开销。随着“图像思维”模型的出现,推理现已从文本领域扩展到视觉领域。这一能力促使我们构建了“由粗到精”的两阶段推理流程:首先,对下采样图像进行分析以识别任务相关区域;随后,仅将这些区域以全分辨率裁剪并在后续推理阶段进行处理。该方法在必要时保留细粒度视觉细节的同时,显著降低了计算成本。核心挑战在于如何推断哪些区域真正与给定查询相关。现有相关方法通常在输入图像下采样后的第一阶段就失效,这源于感知驱动的推理机制——其需要清晰的视觉信息才能进行有效推理。为解决这一问题,我们提出ERGO(高效推理与引导观察)模型,它执行推理驱动的感知,利用多模态上下文来确定关注区域。我们的模型能够考虑感知不确定性,通过扩展裁剪区域以覆盖视觉模糊区域来回答问题。为此,我们在强化学习框架中设计了简单而有效的奖励组件,用于实现由粗到精的感知。在多个数据集上的实验表明,我们的方法在保持更高效率的同时,其准确率超越了原始模型及同类竞争方法。例如,ERGO在V*基准测试中仅使用23%的视觉令牌,就以4.7分的优势超越Qwen2.5-VL-7B模型,并实现了3倍的推理加速。代码与模型已开源:https://github.com/nota-github/ERGO。

0
下载
关闭预览

相关内容

视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
33+阅读 · 2024年7月11日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
1+阅读 · 今天14:52
美国-以色列-伊朗战争:是否会动用地面部队?
专知会员服务
0+阅读 · 今天14:27
美国协同作战飞机项目新型无人机发动机
专知会员服务
0+阅读 · 今天13:59
无人机在美以伊战争中的关键启示(印度视角)
专知会员服务
1+阅读 · 今天7:33
美军夺取伊朗离岸岛屿分析:高风险,低收益
专知会员服务
8+阅读 · 4月10日
相关VIP内容
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
33+阅读 · 2024年7月11日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员