Video Anomaly Understanding (VAU) is a novel task focused on describing unusual occurrences in videos. Despite growing interest, the evaluation of VAU remains an open challenge. Existing benchmarks rely on n-gram-based metrics (e.g., BLEU, ROUGE-L) or LLM-based evaluation. The first fails to capture the rich, free-form, and visually grounded nature of LVLM responses, while the latter focuses on assessing language quality over factual relevance, often resulting in subjective judgments that are misaligned with human perception. In this work, we address this issue by proposing FineVAU, a new benchmark for VAU that shifts the focus towards rich, fine-grained and domain-specific understanding of anomalous videos. We formulate VAU as a three-fold problem, with the goal of comprehensively understanding key descriptive elements of anomalies in video: events (What), participating entities (Who) and location (Where). Our benchmark introduces a) FVScore, a novel, human-aligned evaluation metric that assesses the presence of critical visual elements in LVLM answers, providing interpretable, fine-grained feedback; and b) FineW3, a novel, comprehensive dataset curated through a structured and fully automatic procedure that augments existing human annotations with high quality, fine-grained visual information. Human evaluation reveals that our proposed metric has a superior alignment with human perception of anomalies in comparison to current approaches. Detailed experiments on FineVAU unveil critical limitations in LVLM's ability to perceive anomalous events that require spatial and fine-grained temporal understanding, despite strong performance on coarse grain, static information, and events with strong visual cues.


翻译:视频异常理解(VAU)是一项专注于描述视频中异常事件的新任务。尽管关注度日益增长,但VAU的评估仍是一个开放的挑战。现有基准依赖于基于n-gram的指标(例如BLEU、ROUGE-L)或基于LLM的评估。前者无法捕捉LVLM响应丰富、自由形式且基于视觉的特性,而后者侧重于评估语言质量而非事实相关性,通常导致与人类感知不一致的主观判断。在本工作中,我们通过提出FineVAU来解决这一问题,这是一个新的VAU基准,它将重点转向对异常视频的丰富、细粒度和特定领域的理解。我们将VAU表述为一个三方面的问题,目标是全面理解视频中异常的关键描述性要素:事件(何事)、参与实体(何人)和位置(何处)。我们的基准引入了:a) FVScore,一种新颖的、与人类对齐的评估指标,用于评估LVLM答案中关键视觉要素的存在性,提供可解释的、细粒度的反馈;以及b) FineW3,一个新颖的、全面的数据集,通过结构化的全自动流程构建,该流程利用高质量的细粒度视觉信息增强了现有的人工标注。人工评估表明,与当前方法相比,我们提出的指标在与人类对异常感知的对齐方面具有优越性。在FineVAU上的详细实验揭示了LVLM在感知需要空间和细粒度时间理解的异常事件方面的关键局限性,尽管其在粗粒度、静态信息以及具有强烈视觉线索的事件上表现出色。

0
下载
关闭预览

相关内容

扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
12+阅读 · 4月15日
基于深度学习的视频异常检测:综述
专知会员服务
27+阅读 · 2024年9月10日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
10年视频异常检测:综述与展望
专知会员服务
22+阅读 · 2024年6月1日
基础模型视频理解综述
专知会员服务
31+阅读 · 2024年5月8日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
12+阅读 · 4月15日
基于深度学习的视频异常检测:综述
专知会员服务
27+阅读 · 2024年9月10日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
10年视频异常检测:综述与展望
专知会员服务
22+阅读 · 2024年6月1日
基础模型视频理解综述
专知会员服务
31+阅读 · 2024年5月8日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员