Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.


翻译:理解视频需要超越对孤立时刻的识别,因为人类会持续追踪随时间变化的实体、状态和事件。这种视觉状态追踪能力是视频理解的基础,但在当前多模态大语言模型的评估中仍未得到充分探索。我们提出视觉状态追踪基准(VSTAT)——一个专门用于诊断多模态大语言模型视觉状态追踪能力的视频基准。VSTAT包含来自合成视频和真实视频的834个片段,配以1500个无法通过任何单帧或短片段回答的问题,需要跨越整个视频流进行连续感知和事件整合。尽管现有视频基准上表现优异,但我们发现最先进的多模态大语言模型远低于人类水平,仅略高于基于回答先验的基线。为分析这一差距,我们对比了多模态大语言模型的推理轨迹与底层视频流,以理解其为何及何时在VSTAT上失败。我们发现多模态大语言模型在文本层面能正确推理和追踪,但未能视觉感知需要追踪的事件。最后,初步评估表明,近期基于智能体的方法(包括基于多模态大语言模型的视频智能体和编码智能体)未能有效解决这些失败,在VSTAT上仍然表现不佳。

0
下载
关闭预览

相关内容

视频理解:从几何与语义表征到统一模型架构
专知会员服务
20+阅读 · 3月21日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
专知会员服务
68+阅读 · 2021年10月15日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员