Sketches are highly expressive, inherently capturing subjective and fine-grained visual cues. The exploration of such innate properties of human sketches has, however, been limited to that of image retrieval. In this paper, for the first time, we cultivate the expressiveness of sketches but for the fundamental vision task of object detection. The end result is a sketch-enabled object detection framework that detects based on what \textit{you} sketch -- \textit{that} ``zebra'' (e.g., one that is eating the grass) in a herd of zebras (instance-aware detection), and only the \textit{part} (e.g., ``head" of a ``zebra") that you desire (part-aware detection). We further dictate that our model works without (i) knowing which category to expect at testing (zero-shot) and (ii) not requiring additional bounding boxes (as per fully supervised) and class labels (as per weakly supervised). Instead of devising a model from the ground up, we show an intuitive synergy between foundation models (e.g., CLIP) and existing sketch models build for sketch-based image retrieval (SBIR), which can already elegantly solve the task -- CLIP to provide model generalisation, and SBIR to bridge the (sketch$\rightarrow$photo) gap. In particular, we first perform independent prompting on both sketch and photo branches of an SBIR model to build highly generalisable sketch and photo encoders on the back of the generalisation ability of CLIP. We then devise a training paradigm to adapt the learned encoders for object detection, such that the region embeddings of detected boxes are aligned with the sketch and photo embeddings from SBIR. Evaluating our framework on standard object detection datasets like PASCAL-VOC and MS-COCO outperforms both supervised (SOD) and weakly-supervised object detectors (WSOD) on zero-shot setups. Project Page: \url{https://pinakinathc.github.io/sketch-detect}


翻译:素描具有高度表现力,天然能够捕捉主观且精细的视觉线索。然而,人类素描这种固有属性的探索此前仅限于图像检索领域。本文首次将素描的表现力应用于基础视觉任务——目标检测。最终成果是一个基于素描的目标检测框架,能够根据您所画的草图进行检测:从一群斑马中检测出"正在吃草的那只斑马"(实例感知检测),或仅检测您想要的"斑马头部"等部件(部件感知检测)。我们进一步要求模型在满足以下条件时仍能工作:(i)测试时无需预知类别(零样本);(ii)无需额外边界框(全监督所需)和类别标签(弱监督所需)。我们并未从头设计模型,而是展示了基础模型(如CLIP)与现有素描检索模型(SBIR)之间的直觉协同——CLIP提供模型泛化能力,SBIR弥合素描与照片之间的鸿沟。具体而言,我们首先对SBIR模型的素描分支和照片分支进行独立提示学习,借助CLIP的泛化能力构建高度可泛化的素描编码器和照片编码器。随后设计训练范式,将学习到的编码器适配至目标检测任务,使检测框的区域嵌入与SBIR中的素描嵌入和照片嵌入对齐。在PASCAL-VOC和MS-COCO等标准目标检测数据集上的评估表明,本框架在零样本设置下优于全监督目标检测器(SOD)和弱监督目标检测器(WSOD)。项目页面:\url{https://pinakinathc.github.io/sketch-detect}

0
下载
关闭预览

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
何恺明组新论文:只用ViT做主干也可以做好目标检测
专知会员服务
30+阅读 · 2022年4月2日
专知会员服务
34+阅读 · 2021年9月16日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Arxiv
20+阅读 · 2020年6月8日
VIP会员
最新内容
《无人水面艇文献综述与结构设计》135页
专知会员服务
4+阅读 · 今天14:53
乌克兰战场背后的新武器
专知会员服务
6+阅读 · 6月12日
基于博弈论的陆军人机协同(长文报告)
专知会员服务
12+阅读 · 6月12日
美国陆军航空兵:以愿景引领转型
专知会员服务
7+阅读 · 6月12日
相关VIP内容
何恺明组新论文:只用ViT做主干也可以做好目标检测
专知会员服务
30+阅读 · 2022年4月2日
专知会员服务
34+阅读 · 2021年9月16日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
相关资讯
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Top
微信扫码咨询专知VIP会员