Large Multimodal Models (LMMs) are increasingly applied to scientific research, yet it remains unclear whether they can reliably understand and reason over the multimodal complexity of papers. A central challenge lies in detecting and resolving inconsistencies across text, figures, tables, and equations, issues that are often subtle, domain-specific, and ultimately undermine clarity, reproducibility, and trust. Existing benchmarks overlook this issue, either isolating single modalities or relying on synthetic errors that fail to capture real-world complexity. We introduce PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), the first benchmark grounded in real reviewer-flagged inconsistencies in scientific papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering and human verification, we curate 384 inconsistencies from 353 papers. Based on this set, we design three tasks, namely inconsistency identification, remedy and pair matching, which assess a model's capacity to detect, correct, and reason over inconsistencies across different modalities. Furthermore, to address the notorious problem of choice-only shortcuts in multiple-choice evaluation, where models exploit answer patterns without truly understanding the question, we further introduce structured JSON-based answer representations that minimize linguistic biases by reducing reliance on superficial stylistic cues. We benchmark 21 leading LMMs, including large open-weight models (GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5 with high reasoning). Results reveal strikingly low performance (27.8-53.9\%), underscoring the challenge of multimodal scientific reasoning and motivating progress towards trustworthy scientific assistants.


翻译:大型多模态模型(LMMs)正日益应用于科学研究,但它们是否能可靠地理解并推理论文中的多模态复杂性,目前尚不明确。一个核心挑战在于检测和解决文本、图表、表格及公式之间的不一致性,这些问题通常很微妙、具有领域特异性,并最终会损害清晰度、可重复性和可信度。现有基准忽略了这一问题,要么孤立地处理单一模态,要么依赖于无法捕捉真实世界复杂性的合成错误。我们提出了PRISMM-Bench(基于同行评审的多模态模型不一致性数据集),这是首个基于科学论文中真实审稿人指出的不一致性构建的基准。通过一个包含评审挖掘、LLM辅助过滤和人工验证的多阶段流程,我们从353篇论文中收集了384个不一致性案例。基于此数据集,我们设计了三个任务,即不一致性识别、修正和配对匹配,以评估模型在不同模态间检测、纠正和推理不一致性的能力。此外,针对多项选择评估中臭名昭著的“仅选择捷径”问题——即模型利用答案模式而非真正理解问题——我们进一步引入了基于JSON的结构化答案表示方法,通过减少对表面风格线索的依赖,最大限度地降低语言偏见。我们对21个领先的LMMs进行了基准测试,包括大型开源模型(GLM-4.5V 106B, InternVL3 78B)和专有模型(Gemini 2.5 Pro, 具备高推理能力的GPT-5)。结果显示其性能极低(27.8-53.9%),这突显了多模态科学推理的挑战性,并激励我们朝着构建可信赖的科学助手方向取得进展。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
【CVPR2025教程】大规模多模态模型的评估:挑战与方法
专知会员服务
15+阅读 · 2025年6月13日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
40+阅读 · 2024年10月21日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员