Fashion item detection is challenging due to the ambiguities introduced by the highly diverse appearances of fashion items and the similarities among item subcategories. To address this challenge, we propose a novel Holistic Detection Transformer (Holi-DETR) that detects fashion items in outfit images holistically, by leveraging contextual information. Fashion items often have meaningful relationships as they are combined to create specific styles. Unlike conventional detectors that detect each item independently, Holi-DETR detects multiple items while reducing ambiguities by leveraging three distinct types of contextual information: (1) the co-occurrence relationship between fashion items, (2) the relative position and size based on inter-item spatial arrangements, and (3) the spatial relationships between items and human body key-points. %Holi-DETR explicitly incorporates three types of contextual information: (1) the co-occurrence probability between fashion items, (2) the relative position and size based on inter-item spatial arrangements, and (3) the spatial relationships between items and human body key-points. To this end, we propose a novel architecture that integrates these three types of heterogeneous contextual information into the Detection Transformer (DETR) and its subsequent models. In experiments, the proposed methods improved the performance of the vanilla DETR and the more recently developed Co-DETR by 3.6 percent points (pp) and 1.1 pp, respectively, in terms of average precision (AP).


翻译:时尚单品检测具有挑战性,原因在于时尚单品外观高度多样化带来的模糊性以及各子类别之间的相似性。为应对这一挑战,我们提出了一种新颖的整体检测Transformer(Holi-DETR),它通过利用上下文信息,整体性地检测穿搭图像中的时尚单品。时尚单品通常具有有意义的关联,因为它们被组合以创造特定风格。与独立检测每个单品的传统检测器不同,Holi-DETR通过利用三种不同类型的上下文信息来检测多个单品并减少模糊性:(1)时尚单品之间的共现关系,(2)基于单品间空间布局的相对位置和尺寸,以及(3)单品与人体关键点之间的空间关系。为此,我们提出了一种新颖的架构,将这三类异构上下文信息集成到Detection Transformer(DETR)及其后续模型中。在实验中,所提出的方法在平均精度(AP)方面,分别将原始DETR和近期开发的Co-DETR的性能提升了3.6个百分点(pp)和1.1个百分点。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员