Vision-Language Models (VLMs) are powerful open-set reasoners, yet their direct use as anomaly detectors in video surveillance is fragile: without calibrated anomaly priors, they alternate between missed detections and hallucinated false alarms. We argue the problem is not the VLM itself but how it is used. VLMs should function as anomaly proposers, generating open-set candidate descriptions that are then grounded and tracked by purpose-built spatial and temporal modules. We instantiate this propose-ground-propagate principle in GridVAD, a training-free pipeline that produces pixel-level anomaly masks without any domain-specific training. A VLM reasons over stratified grid representations of video clips to generate natural-language anomaly proposals. Self-Consistency Consolidation (SCC) filters hallucinations by retaining only proposals that recur across multiple independent samplings. Grounding DINO anchors each surviving proposal to a bounding box, and SAM2 propagates it as a dense mask through the anomaly interval. The per-clip VLM budget is fixed at M+1 calls regardless of video length, where M can be set according to the proposals needed. On UCSD Ped2, GridVAD achieves the highest Pixel-AUROC (77.59) among all compared methods, surpassing even the partially fine-tuned TAO (75.11) and outperforms other zero-shot approaches on object-level RBDC by over 5x. Ablations reveal that SCC provides a controllable precision-recall tradeoff: filtering improves all pixel level metrics at a modest cost in object-level recall. Efficiency experiments show GridVAD is 2.7x more call-efficient than uniform per-frame VLM querying while additionally producing dense segmentation masks.Code and qualitative video results are available at https://gridvad.github.io.


翻译:视觉语言模型(VLM)虽具备强大的开集推理能力,但直接将其用作视频监控中的异常检测器存在脆弱性:由于缺乏校准的异常先验,它们会在漏检与幻觉误报之间摇摆。我们认为问题不在于VLM本身,而在于使用方式。VLM应作为异常提议器运行,生成开集候选描述,再由专用时空模块进行锚定与追踪。我们在GridVAD中实现了这一“提议-锚定-传播”原则——无需任何领域特定训练,即可生成像素级异常掩膜的无训练流水线。VLM基于视频片段的分层网格表征进行推理,生成自然语言异常提议。自一致性整合(SCC)通过仅保留在多次独立采样中重现的提议来过滤幻觉。Grounding DINO将每个存活提议锚定至边界框,SAM2则在异常时间区间内将其传播为密集掩膜。无论视频长度如何,每个片段的VLM调用预算固定为M+1次,其中M可根据所需提议数调整。在UCSD Ped2数据集上,GridVAD的像素级AUROC(77.59)超越所有对比方法,甚至超过部分微调的TAO模型(75.11),并在物体级RBDC指标上以5倍优势领先其他零样本方法。消融实验表明,SCC提供了可控的精确率-召回率权衡:过滤操作在轻微牺牲物体级召回率的前提下,全面提升了所有像素级指标。效率实验显示,GridVAD在生成密集分割掩膜的同时,调用效率是统一逐帧VLM查询的2.7倍。代码与定性视频结果参见 https://gridvad.github.io。

0
下载
关闭预览

相关内容

基于深度学习的视频异常检测:综述
专知会员服务
27+阅读 · 2024年9月10日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
监控视频的异常检测与建模综述
专知会员服务
50+阅读 · 2021年12月27日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员