Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.


翻译:多模态大语言模型(MLLMs)在视觉问答任务上取得了显著进展,并已开始支持基于搜索引擎的视觉深度研究系统,以完成复杂的视觉-文本事实检索任务。然而,评估这些视觉与文本搜索能力仍面临挑战,现有基准存在两大主要局限:其一,现有基准并非以视觉搜索为核心——本需通过视觉搜索获取的答案,往往因文本问题中的跨文本线索而泄露,或可依赖当前MLLMs已有的世界知识推断得出;其二,评估场景过于理想化:在图像搜索方面,所需信息常可通过与完整图像近乎精确的匹配获得,而文本搜索则过于直接且挑战性不足。为应对这些问题,我们构建了视觉深度研究基准(VDR-Bench),包含2000个视觉问答实例。所有问题均通过严谨的多阶段筛选流程与专家评审创建,旨在评估视觉深度研究系统在真实场景下的实际表现。此外,针对当前MLLMs视觉检索能力不足的问题,我们提出一种简单的多轮裁剪搜索工作流程。实验表明,该策略能有效提升模型在真实视觉检索场景中的性能。总体而言,我们的研究结果为未来多模态深度研究系统的设计提供了实用指导。代码将在https://github.com/Osilly/Vision-DeepResearch 发布。

0
下载
关闭预览

相关内容

互联网
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习与计算机视觉任务应用综述
深度学习与NLP
51+阅读 · 2018年12月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
VIP会员
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习与计算机视觉任务应用综述
深度学习与NLP
51+阅读 · 2018年12月18日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员