Multimodal Large Language Models (MLLMs) are increasingly applied in real-world scenarios where user-provided images are often imperfect, requiring active image manipulations such as cropping, editing, or enhancement to uncover salient visual cues. Beyond static visual perception, MLLMs must also think with images: dynamically transforming visual content and integrating it with other tools to solve complex tasks. However, this shift from treating vision as passive context to a manipulable cognitive workspace remains underexplored. Most existing benchmarks still follow a think about images paradigm, where images are regarded as static inputs. To address this gap, we introduce IRIS, an Interactive Reasoning with Images and Systems that evaluates MLLMs' ability to perceive, transform, and reason across complex visual-textual tasks under the think with images paradigm. IRIS comprises 1,204 challenging, open-ended vision tasks (603 single-turn, 601 multi-turn) spanning across five diverse domains, each paired with detailed rubrics to enable systematic evaluation. Our evaluation shows that current MLLMs struggle with tasks requiring effective integration of vision and general-purpose tools. Even the strongest model (GPT-5-think) reaches only 18.68% pass rate. We further observe divergent tool-use behaviors, with OpenAI models benefiting from diverse image manipulations while Gemini-2.5-pro shows no improvement. By introducing the first benchmark centered on think with images, IRIS offers critical insights for advancing visual intelligence in MLLMs.


翻译:多模态大语言模型(MLLMs)正日益应用于现实场景中,用户提供的图像往往存在缺陷,需要通过主动的图像操作(如裁剪、编辑或增强)来提取关键视觉线索。除了静态的视觉感知,MLLMs 还必须能够“以图像为媒介进行思考”:动态转换视觉内容,并将其与其他工具结合以解决复杂任务。然而,这种将视觉从被动上下文转变为可操作的认知工作空间的范式转变仍未得到充分探索。现有大多数基准测试仍遵循“关于图像的思考”范式,将图像视为静态输入。为填补这一空白,我们提出了 IRIS(图像与系统交互推理基准),该基准在“以图像为媒介进行思考”的范式下,评估 MLLMs 在复杂视觉-文本任务中的感知、转换与推理能力。IRIS 包含 1,204 个具有挑战性的开放式视觉任务(603 个单轮任务,601 个多轮任务),涵盖五个不同领域,每个任务均配有详细的评估标准以实现系统化评测。我们的评估表明,当前 MLLMs 在需要有效整合视觉与通用工具的任务上表现不佳,即使是最强的模型(GPT-5-think)也仅达到 18.68% 的通过率。我们进一步观察到工具使用行为的差异性:OpenAI 模型能够从多样化的图像操作中获益,而 Gemini-2.5-pro 则未见提升。通过引入首个以“以图像为媒介进行思考”为核心的基准,IRIS 为推进 MLLMs 的视觉智能提供了关键洞见。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员