How can we segment varying numbers of objects where each specific object represents its own separate class? To make the problem even more realistic, how can we add and delete classes on the fly without retraining? This is the case of robotic applications where no datasets of the objects exist or application that includes thousands of objects (E.g., in logistics) where it is impossible to train a single model to learn all of the objects. Most current research on object segmentation for robotic grasping focuses on class-level object segmentation (E.g., box, cup, bottle), closed sets (specific objects of a dataset; for example, YCB dataset), or deep learning-based template matching. In this work, we are interested in open sets where the number of classes is unknown, varying, and without pre-knowledge about the objects' types. We consider each specific object as its own separate class. Our goal is to develop a zero-shot object detector that requires no training and can add any object as a class just by capturing a few images of the object. Our main idea is to break the segmentation pipelines into two steps by combining unseen object segmentation networks cascaded by zero-shot classifiers. We evaluate our zero-shot object detector on unseen datasets and compare it to a trained Mask R-CNN on those datasets. The results show that the performance varies from practical to unsuitable depending on the environment setup and the objects being handled. The code is available in our DoUnseen library repository.


翻译:如何对数量变化的物体进行分割,其中每个特定物体代表其独立的类别?若进一步考虑现实性,如何在不重新训练的情况下动态添加或删除类别?这在机器人应用中尤为常见,例如当物体数据集不存在时,或应用涉及数千个物体(如物流场景),此时无法训练单一模型来学习所有物体。当前机器人抓取中物体分割的研究大多聚焦于类别级分割(如盒子、杯子、瓶子)、封闭数据集(如YCB数据集中的特定物体),或基于深度学习的模板匹配。本工作关注开放集合场景:类别数量未知、动态变化,且无物体类型的先验知识。我们将每个特定物体视为独立类别,旨在开发一种无需训练的零样本目标检测器,仅需通过拍摄少量物体图像即可将其作为新类别添加。核心思路是将分割流程解耦为两步:通过未见过物体分割网络与零样本分类器级联。我们在未见数据集上评估该零样本目标检测器,并与在该数据集上训练的Mask R-CNN进行对比。结果表明,其性能因环境配置与操作物体的不同,从实际可用到不适用不等。代码已开源至DoUnseen库仓库。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年9月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
0+阅读 · 2023年5月22日
Arxiv
21+阅读 · 2020年10月11日
Arxiv
19+阅读 · 2018年5月17日
VIP会员
最新内容
《通往人工通用智能之路上的均衡策略》
专知会员服务
1+阅读 · 今天14:22
《人工智能与军事整合:现状与未来风险》报告
专知会员服务
2+阅读 · 今天14:12
《Palantir的科技生态系统》
专知会员服务
14+阅读 · 6月2日
《反无人机系统传感器融合》90页报告
专知会员服务
16+阅读 · 6月2日
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
8+阅读 · 6月2日
相关VIP内容
专知会员服务
23+阅读 · 2021年9月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员