We tackle the issue of generalized category discovery (GCD). GCD considers the open-world problem of automatically clustering a partially labelled dataset, in which the unlabelled data contain instances from novel categories and also the labelled classes. In this paper, we address the GCD problem without a known category number in the unlabelled data. We propose a framework, named CiPR, to bootstrap the representation by exploiting Cross-instance Positive Relations for contrastive learning in the partially labelled data which are neglected in existing methods. First, to obtain reliable cross-instance relations to facilitate the representation learning, we introduce a semi-supervised hierarchical clustering algorithm, named selective neighbor clustering (SNC), which can produce a clustering hierarchy directly from the connected components in the graph constructed by selective neighbors. We also extend SNC to be capable of label assignment for the unlabelled instances with the given class number. Moreover, we present a method to estimate the unknown class number using SNC with a joint reference score considering clustering indexes of both labelled and unlabelled data. Finally, we thoroughly evaluate our framework on public generic image recognition datasets and challenging fine-grained datasets, all establishing the new state-of-the-art.


翻译:我们探讨了广义类别发现(GCD)问题。GCD关注开放世界中的自动聚类问题,即对部分标注数据集进行聚类,其中未标注数据既包含来自新类别的实例,也包含已标注类别的实例。本文针对未标注数据中类别数量未知的GCD问题提出了一种名为CiPR的框架,通过利用被现有方法忽视的部分标注数据中的跨实例正关系(Cross-instance Positive Relations),引导对比学习以提升表征能力。首先,为获得可靠的跨实例关系以促进表征学习,我们引入了一种半监督层次聚类算法——选择性邻域聚类(SNC)。该算法可直接从选择性邻域构建的图的连通分量中生成聚类层次结构。我们还扩展了SNC,使其能在给定类别数的情况下为未标注实例分配标签。此外,我们提出了一种基于SNC的未知类别数估计方法,通过联合参考分数综合考虑已标注数据和未标注数据的聚类指标。最后,我们在公开通用图像识别数据集和具有挑战性的细粒度数据集上全面评估了所提框架,所有结果均达到了当前最优水平。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年9月19日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
46+阅读 · 2020年9月28日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
0+阅读 · 2023年5月31日
VIP会员
最新内容
算法化战争:人工智能时代的新范式(万字长文)
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
2+阅读 · 今天14:00
超越网格:作战环境对炮兵的影响
专知会员服务
3+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
相关VIP内容
专知会员服务
26+阅读 · 2021年9月19日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
46+阅读 · 2020年9月28日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员