Deploying video anomaly detection in practice is hampered by the scarcity and collection cost of real abnormal footage. We address this by training without any real abnormal videos while evaluating under the standard weakly supervised split, and we introduce PA-VAD, a generation-driven approach that learns a detector from synthesized pseudo-abnormal videos paired with real normal videos, using only a small set of real normal images to drive synthesis. For synthesis, we select class-relevant initial images with CLIP and refine textual prompts with a vision-language model to improve fidelity and scene consistency before invoking a video diffusion model. For training, we mitigate excessive spatiotemporal magnitude in synthesized anomalies by an domain-aligned regularized module that combines domain alignment and memory usage-aware updates. Extensive experiments show that our approach reaches 98.2% on ShanghaiTech and 82.5% on UCF-Crime, surpassing the strongest real-abnormal method on ShanghaiTech by +0.6% and outperforming the UVAD state-of-the-art on UCF-Crime by +1.9%. The results demonstrate that high-accuracy anomaly detection can be obtained without collecting real anomalies, providing a practical path toward scalable deployment.


翻译:视频异常检测的实际部署受到真实异常视频稀缺性和采集成本的制约。我们通过在不使用任何真实异常视频的情况下进行训练,并在标准弱监督划分下进行评估来解决这一问题,并提出了PA-VAD——一种生成驱动的方法,该方法仅使用一小部分真实正常图像驱动合成,从合成的伪异常视频与真实正常视频配对中学习检测器。在合成阶段,我们使用CLIP选择类别相关的初始图像,并通过视觉语言模型优化文本提示以提高保真度和场景一致性,随后调用视频扩散模型。在训练阶段,我们通过一个结合领域对齐和内存使用感知更新的领域对齐正则化模块,来缓解合成异常中过度的时空幅度。大量实验表明,我们的方法在ShanghaiTech数据集上达到98.2%,在UCF-Crime数据集上达到82.5%,在ShanghaiTech上超越了最强的真实异常方法+0.6%,在UCF-Crime上超越了最先进的UVAD方法+1.9%。结果表明,无需收集真实异常即可实现高精度异常检测,为可扩展部署提供了实用路径。

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员