The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI's ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses 6 core competencies that focus on perceptivity and interactivity, encompassing 1,000 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.


翻译:近年来,多模态大语言模型的发展显著提升了人工智能理解视觉模态的能力。然而,现有的评估基准仍局限于单轮问答,忽视了现实场景中多轮对话的复杂性。为弥补这一差距,我们提出了MT-Video-Bench,一个用于评估多模态大语言模型在多轮对话中视频理解能力的综合性基准。具体而言,我们的MT-Video-Bench主要评估聚焦于感知力与交互性的六项核心能力,涵盖了从多个领域精心构建的1000个多轮对话。这些能力与现实应用场景(如交互式体育分析和基于视频的多轮智能教学)严格对齐。利用MT-Video-Bench,我们对多种先进的开源与闭源多模态大语言模型进行了广泛评估,揭示了它们在处理多轮视频对话时存在的显著性能差异与局限。该基准将公开提供,以促进未来研究。

0
下载
关闭预览

相关内容

Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
14+阅读 · 2025年10月7日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
40+阅读 · 2024年12月7日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员