Recent advances in Omni-Multimodal Large Language Models (Omni-MLLMs) have enabled strong integration of vision, audio, and language. However, their audio-visual intelligence (AVI) remains insufficiently evaluated due to the lack of systematic and comprehensive benchmarks. We introduce AVI-Bench, a cognitively inspired benchmark that evaluates Omni-MLLMs across three stages, perception, understanding, and reasoning, through cross-modal tasks requiring joint audio-visual interpretation. This design enables fine-grained diagnosis of model capabilities and failure modes. To further assess robustness beyond familiar domains, we propose AVI-Bench-PriSe, an extension that probes models' primitive audio-visual sensation using unfamiliar, low-semantic stimuli, testing generalization beyond common training distributions. Extensive experiments on both open-source and closed-source models reveal substantial limitations in current Omni-MLLMs. Based on these findings, we present a four-level AVI taxonomy. Overall, AVI-Bench provides a principled evaluation framework to guide the development of more robust and generalizable AVI. Project website: https://fudancvl.github.io/AVI-Bench/


翻译:近期全模态大语言模型(Omni-MLLMs)的进展实现了视觉、音频与语言的深度整合,然而由于缺乏系统性及综合性基准测试,其视听智能(AVI)仍未被充分评估。我们提出AVI-Bench——一项受认知科学启发的基准测试,通过需要联合视听解读的跨模态任务,从感知、理解与推理三个阶段对Omni-MLLMs进行评估。该设计可实现对模型能力与失效模式的细粒度诊断。为进一步评估模型在熟悉领域之外的鲁棒性,我们提出扩展版本AVI-Bench-PriSe,利用陌生且低语义的刺激探测模型的原始视听感知能力,检验其超越常见训练分布的泛化性能。针对开源与闭源模型的广泛实验揭示了当前Omni-MLLMs的显著局限性。基于发现,我们提出四层级AVI分类体系。总体而言,AVI-Bench为开发更鲁棒且可泛化的视听智能提供了原则性评估框架。项目网站:https://fudancvl.github.io/AVI-Bench/

0
下载
关闭预览

相关内容

在过去的二十多年里,会议吸引了来自世界各地的人机交互(HCI)的主要研究人员,提供了一个论坛来展示和传播HCI和用户界面的新技术成果、范式和愿景。由于先进的技术和用户交互的新可能性,AVI已经拓宽了它所涵盖的主题,但仍主要关注于新的视觉界面的概念、设计、实现和评估。官网链接:https://sites.google.com/dis.uniroma1.it/avi2018?utm_source=researchbib
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员