In recent years, aerial object detection has been increasingly pivotal in various earth observation applications. However, current algorithms are limited to detecting a set of pre-defined object categories, demanding sufficient annotated training samples, and fail to detect novel object categories. In this paper, we put forth a novel formulation of the aerial object detection problem, namely open-vocabulary aerial object detection (OVAD), which can detect objects beyond training categories without costly collecting new labeled data. We propose CastDet, a CLIP-activated student-teacher detection framework that serves as the first OVAD detector specifically designed for the challenging aerial scenario, where objects often exhibit weak appearance features and arbitrary orientations. Our framework integrates a robust localization teacher along with several box selection strategies to generate high-quality proposals for novel objects. Additionally, the RemoteCLIP model is adopted as an omniscient teacher, which provides rich knowledge to enhance classification capabilities for novel categories. A dynamic label queue is devised to maintain high-quality pseudo-labels during training. By doing so, the proposed CastDet boosts not only novel object proposals but also classification. Furthermore, we extend our approach from horizontal OVAD to oriented OVAD with tailored algorithm designs to effectively manage bounding box representation and pseudo-label generation. Extensive experiments for both tasks on multiple existing aerial object detection datasets demonstrate the effectiveness of our approach. The code is available at https://github.com/VisionXLab/CastDet.


翻译:近年来,航空目标检测在各种地球观测应用中日益关键。然而,现有算法仅限于检测一组预定义的目标类别,需要充足的标注训练样本,且无法检测新颖目标类别。本文提出了一种新颖的航空目标检测问题表述,即开放词汇航空目标检测(OVAD),该框架能够在无需昂贵标注数据收集的情况下检测训练类别之外的目标。我们提出了CastDet,一种基于CLIP激活的师生检测框架,作为首个专为具有挑战性的航空场景设计的OVAD检测器,该场景中的目标通常呈现弱外观特征和任意方向。我们的框架整合了鲁棒的定位教师模块及多种边界框选择策略,以生成针对新颖目标的高质量候选区域。此外,采用RemoteCLIP模型作为全知教师,提供丰富知识以增强对新类别的分类能力。我们设计了动态标签队列以在训练过程中维护高质量的伪标签。通过这种方式,所提出的CastDet不仅提升了新颖目标候选区域的生成质量,还增强了分类性能。进一步地,我们通过定制化算法设计将方法从水平OVAD扩展至定向OVAD,以有效管理边界框表示和伪标签生成。在多个现有航空目标检测数据集上对两项任务进行的广泛实验验证了我们方法的有效性。代码发布于https://github.com/VisionXLab/CastDet。

0
下载
关闭预览

相关内容

【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
专知会员服务
27+阅读 · 2021年3月5日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
专知会员服务
164+阅读 · 2020年4月21日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关VIP内容
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
专知会员服务
27+阅读 · 2021年3月5日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
专知会员服务
164+阅读 · 2020年4月21日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员