Recent advances in detecting arbitrary objects in the real world are trained and evaluated on object detection datasets with a relatively restricted vocabulary. To facilitate the development of more general visual object detection, we propose V3Det, a vast vocabulary visual detection dataset with precisely annotated bounding boxes on massive images. V3Det has several appealing properties: 1) Vast Vocabulary: It contains bounding boxes of objects from 13,029 categories on real-world images, which is 10 times larger than the existing large vocabulary object detection dataset, e.g., LVIS. 2) Hierarchical Category Organization: The vast vocabulary of V3Det is organized by a hierarchical category tree which annotates the inclusion relationship among categories, encouraging the exploration of category relationships in vast and open vocabulary object detection. 3) Rich Annotations: V3Det comprises precisely annotated objects in 245k images and professional descriptions of each category written by human experts and a powerful chatbot. By offering a vast exploration space, V3Det enables extensive benchmarks on both vast and open vocabulary object detection, leading to new observations, practices, and insights for future research. It has the potential to serve as a cornerstone dataset for developing more general visual perception systems.


翻译:近期在现实世界中检测任意物体的进展,均基于词汇相对受限的目标检测数据集进行训练与评估。为促进更通用的视觉目标检测发展,我们提出V3Det——一个包含海量图像精标注边界框的大规模词汇视觉检测数据集。V3Det具有以下显著特性:1)广袤词汇:其真实世界图像中包含来自13,029个类别的物体边界框,规模是现有大规模词汇目标检测数据集(如LVIS)的10倍;2)层级化类别组织:V3Det通过层级化类别树组织其广袤词汇,该树状结构标注了类别间的包含关系,鼓励在广袤与开放词汇目标检测中探索类别关联;3)丰富标注:V3Det包含245k张图像中精准标注的物体,以及由人类专家与智能聊天机器人编写的每个类别的专业描述。通过提供广阔的探索空间,V3Det在广袤与开放词汇目标检测领域构建了全面的基准评测,为未来研究带来新观察、实践与洞见。该数据集有望成为构建更通用视觉感知系统的基石性数据集。

1
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
14+阅读 · 2019年4月29日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Kaggle 新赛:Google AI Open Images 目标检测
AI研习社
18+阅读 · 2018年7月4日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
最新内容
《人工智能在网络防御中的机遇》
专知会员服务
2+阅读 · 今天12:49
认知战:定义与能力发展
专知会员服务
4+阅读 · 今天9:25
乌军利用美国“黄蜂”无人机摧毁俄军后勤
专知会员服务
7+阅读 · 6月7日
《支持作战级人机协同智能的交互式OODA流程》
专知会员服务
15+阅读 · 6月7日
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
8+阅读 · 6月6日
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
14+阅读 · 2019年4月29日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Kaggle 新赛:Google AI Open Images 目标检测
AI研习社
18+阅读 · 2018年7月4日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员