Multimodal Large Language Models (MLLMs) excel at broad visual understanding but still struggle with fine-grained perception, where decisive evidence is small and easily overwhelmed by global context. Recent "Thinking-with-Images" methods alleviate this by iteratively zooming in and out regions of interest during inference, but incur high latency due to repeated tool calls and visual re-encoding. To address this, we propose Region-to-Image Distillation, which transforms zooming from an inference-time tool into a training-time primitive, thereby internalizing the benefits of agentic zooming into a single forward pass of an MLLM. In particular, we first zoom in to micro-cropped regions to let strong teacher models generate high-quality VQA data, and then distill this region-grounded supervision back to the full image. After training on such data, the smaller student model improves "single-glance" fine-grained perception without tool use. To rigorously evaluate this capability, we further present ZoomBench, a hybrid-annotated benchmark of 845 VQA data spanning six fine-grained perceptual dimensions, together with a dual-view protocol that quantifies the global--regional "zooming gap". Experiments show that our models achieve leading performance across multiple fine-grained perception benchmarks, and also improve general multimodal cognition on benchmarks such as visual reasoning and GUI agents. We further discuss when "Thinking-with-Images" is necessary versus when its gains can be distilled into a single forward pass. Our code is available at https://github.com/inclusionAI/Zooming-without-Zooming.


翻译:多模态大语言模型(MLLMs)在宏观视觉理解方面表现出色,但在细粒度感知任务中仍面临挑战,其中关键证据往往尺寸微小且易被全局上下文信息淹没。近期提出的“图像思维”方法通过在推理过程中迭代缩放感兴趣区域来缓解此问题,但由于重复的工具调用和视觉重新编码,导致延迟较高。为解决这一问题,我们提出区域到图像蒸馏方法,将缩放从推理时的工具转变为训练时的基本操作,从而将主动缩放的优势内化到MLLM的单次前向传播中。具体而言,我们首先对微裁剪区域进行放大,使强教师模型生成高质量视觉问答数据,随后将这种基于区域的监督信息蒸馏回完整图像。经过此类数据训练后,较小的学生模型无需使用工具即可提升“单次瞥视”的细粒度感知能力。为严格评估该能力,我们进一步提出ZoomBench——一个包含845个视觉问答数据的混合标注基准数据集,涵盖六个细粒度感知维度,并配备双视图评估协议以量化全局与区域的“缩放差距”。实验表明,我们的模型在多个细粒度感知基准测试中取得领先性能,同时也在视觉推理和图形用户界面智能体等基准测试中提升了通用多模态认知能力。我们进一步探讨了“图像思维”在何种情况下必要,以及其增益何时可被蒸馏至单次前向传播中。代码已开源:https://github.com/inclusionAI/Zooming-without-Zooming。

0
下载
关闭预览

相关内容

多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
浅谈多模态大模型幻觉缓解方法
专知会员服务
24+阅读 · 2024年12月17日
视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员