Multimodal Large Language Models (MLLMs) have increasingly supported omni-modal processing across text, vision, and speech. However, existing evaluation frameworks for such models suffer from critical limitations, including modality shortcuts and biased reasoning paths. To address these challenges, we propose OMHBench, a novel benchmark designed to rigorously evaluate omni-modal multi-hop reasoning. It consists of 6,144 questions with balanced reasoning paths that are jointly grounded across all three modalities. Extensive evaluation of 13 state-of-the-art models reveals that (1) a large performance gap exists between proprietary and open-source MLLMs and (2) even proprietary models exhibit high sensitivity to reasoning path variations, resulting in asymmetric omni-modal grounding. Notably, models struggle when processing the speech modality, underscoring the need for balanced, multi-hop evaluation of omni-modal intelligence.


翻译:多模态大语言模型(MLLMs)已日益支持跨文本、视觉和语音的全模态处理。然而,针对此类模型的现有评估框架存在关键局限,包括模态捷径和有偏见的推理路径。为应对这些挑战,我们提出了OMHBench,这是一个旨在严格评估全模态多跳推理的新型基准。它包含6,144个问题,其推理路径经过平衡设计,并同时基于所有三种模态进行事实关联。对13个最先进模型的广泛评估表明:(1)专有模型与开源MLLMs之间存在巨大的性能差距;(2)即使是专有模型也对推理路径的变化表现出高度敏感性,导致全模态事实关联的不对称性。值得注意的是,模型在处理语音模态时表现尤为困难,这突显了对全模态智能进行平衡、多跳评估的必要性。

0
下载
关闭预览

相关内容

多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
17+阅读 · 2025年6月8日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员