Recent advances in large language models have laid the foundation for multimodal LLMs (MLLMs), which unify text, speech, and vision within a single framework. As these models are rapidly evolving toward general-purpose instruction following across diverse and complex tasks, a key frontier is evaluating their crosslingual and multimodal capabilities over both short- and long-form inputs. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on a single modality at a time, rely on short-form inputs, or lack human annotations--hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first crosslingual human-annotated benchmark based on scientific talks on NLP and beyond. MCIF evaluates instruction following in crosslingual, multimodal settings over different input lengths and spans four macro-tasks: recognition, translation, question answering, and summarization. It covers three core modalities (speech, vision, and text) and four diverse languages (English, German, Italian, and Chinese), fully aligned across all dimensions. This parallel design enables a systematic evaluation of MLLMs' abilities to interpret instructions across languages and effectively integrate multimodal contextual information. Our benchmarking and analysis of 23 models highlight universal challenges across modalities and tasks, indicating substantial room for improvement in future MLLMs development. MCIF is released under CC-BY 4.0 license to promote open research.


翻译:大型语言模型的最新进展为多模态大语言模型奠定了基础,这些模型将文本、语音和视觉统一在单一框架内。随着这些模型在多样化和复杂任务中快速向通用指令遵循能力演进,一个关键前沿是评估其在长短输入上的跨语言和多模态能力。然而,现有基准在联合评估这些维度方面存在不足:通常仅限于英语、主要关注单一模态、依赖短输入形式或缺乏人工标注——这阻碍了跨语言、跨模态和跨任务复杂度的模型性能综合评估。为弥补这些不足,我们提出了MCIF(多模态跨语言指令遵循基准),这是首个基于自然语言处理等领域科学讲座的跨语言人工标注基准。MCIF通过不同输入长度评估跨语言多模态场景下的指令遵循能力,涵盖识别、翻译、问答和摘要四大宏观任务。该基准覆盖语音、视觉和文本三种核心模态,以及英语、德语、意大利语和中文四种语言,所有维度完全对齐。这种并行设计能够系统评估多模态大语言模型跨语言理解指令并有效整合多模态上下文信息的能力。我们对23个模型的基准测试和分析揭示了跨模态和跨任务的普遍挑战,表明未来多模态大语言模型发展仍有巨大改进空间。MCIF基于CC-BY 4.0协议发布以促进开放研究。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
相关VIP内容
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员