Vision-language pretraining to learn a fine-grained, region-word alignment between image-caption pairs has propelled progress in open-vocabulary object detection. We observe that region-word alignment methods are typically used in detection with respect to only object nouns, and the impact of other rich context in captions, such as attributes, is unclear. In this study, we explore how language context affects downstream object detection and propose to enhance the role of context. In particular, we show how to strategically contextualize the grounding pretraining objective for improved alignment. We further hone in on attributes as especially useful object context and propose a novel adjective and noun-based negative sampling strategy for increasing their focus in contrastive learning. Overall, our methods enhance object detection when compared to the state-of-the-art in region-word pretraining. We also highlight the fine-grained utility of an attribute-sensitive model through text-region retrieval and phrase grounding analysis.


翻译:视觉-语言预训练通过学习图像-文本对之间的细粒度区域-词语对齐,推动了开放词汇目标检测的进展。我们注意到,区域-词语对齐方法在检测中通常仅针对目标名词使用,而文本中其他丰富上下文(如属性)的影响尚不明确。本研究探讨语言上下文如何影响下游目标检测,并提出增强上下文作用的方法。具体而言,我们展示了如何策略性地为基础预训练目标赋予上下文信息,以改进对齐效果。进一步聚焦作为特别有效目标上下文的属性,提出一种基于形容词和名词的负采样策略,在对比学习中增强对属性的关注。总体而言,与最先进的区域-词语预训练方法相比,我们的方法提升了目标检测性能。此外,通过文本-区域检索和短语定位分析,突显了属性敏感模型的细粒度实用性。

0
下载
关闭预览

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
42+阅读 · 2022年3月12日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
14+阅读 · 2021年3月10日
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
0+阅读 · 今天15:30
《美陆军最新条令:兵力防护》
专知会员服务
2+阅读 · 今天14:43
《人工智能的挑战:算法战的想象与现实》
专知会员服务
3+阅读 · 今天14:26
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
3+阅读 · 今天14:12
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
17+阅读 · 6月2日
相关VIP内容
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
42+阅读 · 2022年3月12日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
相关基金
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员