The capability of Unified Multimodal Models (UMMs) to apply world knowledge across diverse tasks remains a critical, unresolved challenge. Existing benchmarks fall short, offering only siloed, single-task evaluations with limited diagnostic power. To bridge this gap, we propose AEGIS (\emph{i.e.}, \textbf{A}ssessing \textbf{E}diting, \textbf{G}eneration, \textbf{I}nterpretation-Understanding for \textbf{S}uper-intelligence), a comprehensive multi-task benchmark covering visual understanding, generation, editing, and interleaved generation. AEGIS comprises 1,050 challenging, manually-annotated questions spanning 21 topics (including STEM, humanities, daily life, etc.) and 6 reasoning types. To concretely evaluate the performance of UMMs in world knowledge scope without ambiguous metrics, we further propose Deterministic Checklist-based Evaluation (DCE), a protocol that replaces ambiguous prompt-based scoring with atomic ``Y/N'' judgments, to enhance evaluation reliability. Our extensive experiments reveal that most UMMs exhibit severe world knowledge deficits and that performance degrades significantly with complex reasoning. Additionally, simple plug-in reasoning modules can partially mitigate these vulnerabilities, highlighting a promising direction for future research. These results highlight the importance of world-knowledge-based reasoning as a critical frontier for UMMs.


翻译:统一多模态模型(UMMs)在多样化任务中应用世界知识的能力仍然是一个关键且尚未解决的挑战。现有基准测试存在不足,仅提供孤立、单一任务的评估,诊断能力有限。为弥补这一差距,我们提出了AEGIS(即面向超级智能的**A**ssessing **E**diting, **G**eneration, **I**nterpretation-Understanding评估),这是一个涵盖视觉理解、生成、编辑及交错生成任务的综合性多任务基准。AEGIS包含1,050个具有挑战性的人工标注问题,涵盖21个主题(包括STEM、人文、日常生活等)和6种推理类型。为在没有模糊指标的情况下具体评估UMMs在世界知识范围上的表现,我们进一步提出了基于确定性清单的评估(DCE),该协议用原子化的“是/否”判断取代了基于提示的模糊评分,从而提升了评估的可靠性。我们的大规模实验表明,大多数UMMs存在严重的世界知识缺陷,且随着推理复杂性的增加,其性能显著下降。此外,简单的插件式推理模块可以部分缓解这些缺陷,这为未来研究指明了一个有前景的方向。这些结果凸显了基于世界知识的推理作为UMMs关键前沿领域的重要性。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员