Change Detection (CD) is a fundamental task in remote sensing. It monitors the evolution of land cover over time. Based on this, Open-Vocabulary Change Detection (OVCD) introduces a new requirement. It aims to reduce the reliance on predefined categories. Existing training-free OVCD methods mostly use CLIP to identify categories. These methods also need extra models like DINO to extract features. However, combining different models often causes problems in matching features and makes the system unstable. Recently, the Segment Anything Model 3 (SAM 3) is introduced. It integrates segmentation and identification capabilities within one promptable model, which offers new possibilities for the OVCD task. In this paper, we propose OmniOVCD, a standalone framework designed for OVCD. By leveraging the decoupled output heads of SAM 3, we propose a Synergistic Fusion to Instance Decoupling (SFID) strategy. SFID first fuses the semantic, instance, and presence outputs of SAM 3 to construct land-cover masks, and then decomposes them into individual instance masks for change comparison. This design preserves high accuracy in category recognition and maintains instance-level consistency across images. As a result, the model can generate accurate change masks. Experiments on four public benchmarks (LEVIR-CD, WHU-CD, S2Looking, and SECOND) demonstrate SOTA performance, achieving IoU scores of 67.2, 66.5, 24.5, and 27.1 (class-average), respectively, surpassing all previous methods.


翻译:变化检测是遥感领域的一项基础任务,旨在监测地表覆盖随时间的演变。在此基础上,开放词汇变化检测提出了一项新要求,即减少对预定义类别的依赖。现有的免训练开放词汇变化检测方法大多使用CLIP进行类别识别,并需要借助DINO等额外模型来提取特征。然而,不同模型的组合常导致特征匹配问题,并使系统稳定性下降。近期提出的Segment Anything Model 3在一个可提示的模型中集成了分割与识别能力,为开放词汇变化检测任务提供了新的可能性。本文提出OmniOVCD——一个专为开放词汇变化检测设计的独立框架。通过利用SAM 3的解耦输出头,我们提出协同融合到实例解耦策略。该策略首先融合SAM 3的语义、实例与存在性输出来构建地表覆盖掩码,随后将其分解为独立的实例掩码以进行变化比对。该设计在保持高精度类别识别能力的同时,确保了跨图像的实例级一致性,从而能够生成精确的变化掩码。在四个公开基准数据集(LEVIR-CD、WHU-CD、S2Looking和SECOND)上的实验表明,本方法取得了最先进的性能,其交并比分数分别达到67.2、66.5、24.5和27.1(类别平均),超越了所有现有方法。

0
下载
关闭预览

相关内容

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员