Recent vision language models (VLMs) like CLIP have demonstrated impressive anomaly detection performance under significant distribution shift by utilizing high-level semantic information through text prompts. However, these models often neglect fine-grained details, such as which kind of anomalies, like "hole", "cut", "scratch" that could provide more specific insight into the nature of anomalies. We argue that recognizing fine-grained anomaly types 1) enriches the representation of "abnormal" with structured semantics, narrowing the gap between coarse anomaly signals and fine-grained defect categories; 2) enables manufacturers to understand the root causes of the anomaly and implement more targeted and appropriate corrective measures quickly. While incorporating such detailed semantic information is crucial, designing handcrafted prompts for each defect type is both time-consuming and susceptible to human bias. For this reason, we introduce DAPO, a novel approach for Defect-aware Prompt Optimization based on progressive tuning for the zero-shot multi-type and binary anomaly detection and segmentation under distribution shifts. Our approach aligns anomaly-relevant image features with their corresponding text semantics by learning hybrid defect-aware prompts with both fixed textual anchors and learnable token embeddings. We conducted experiments on public benchmarks (MPDD, VisA, MVTec-AD, MAD, and Real-IAD) and an internal dataset. The results suggest that compared to the baseline models, DAPO achieves a 3.7% average improvement in AUROC and average precision metrics at the image level under distribution shift, and a 6.5% average improvement in localizing novel anomaly types under zero-shot settings.


翻译:近期视觉语言模型(如CLIP)通过文本提示利用高层语义信息,在显著分布偏移下展现出优异的异常检测性能。然而,这些模型往往忽略细粒度细节(如“孔洞”“切口”“划痕”等具体异常类型),而这些信息可为异常本质提供更具体的洞察。我们认为识别细粒度异常类型具有双重意义:1)通过结构化语义丰富“异常”的表征,缩小粗粒度异常信号与细粒度缺陷类别之间的差距;2)帮助制造商理解异常根源,快速实施更具针对性且恰当的纠正措施。尽管融入此类细节语义信息至关重要,但为每种缺陷类型手工设计提示既耗时又易受人为偏差影响。为此,我们提出DAPO——一种基于渐进调优的缺陷感知提示优化新方法,用于分布偏移下的零样本多类型及二元异常检测与分割。该方法通过同时学习固定文本锚点与可学习词元嵌入构成的混合缺陷感知提示,将异常相关图像特征与其对应文本语义对齐。我们在公开基准数据集(MPDD、VisA、MVTec-AD、MAD、Real-IAD)及内部数据集上进行实验。结果表明:相较于基线模型,DAPO在分布偏移下的图像级AUROC与平均精度指标平均提升3.7%,在零样本设置下定位新型异常类型的性能平均提升6.5%。

0
下载
关闭预览

相关内容

提示调优综述
专知会员服务
18+阅读 · 2025年7月10日
【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类
专知会员服务
15+阅读 · 2025年3月1日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
基于深度学习的视频异常检测:综述
专知会员服务
26+阅读 · 2024年9月10日
专知会员服务
34+阅读 · 2021年9月16日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
提示调优综述
专知会员服务
18+阅读 · 2025年7月10日
【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类
专知会员服务
15+阅读 · 2025年3月1日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
基于深度学习的视频异常检测:综述
专知会员服务
26+阅读 · 2024年9月10日
专知会员服务
34+阅读 · 2021年9月16日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员