Generalized Category Discovery (GCD) aims to identify both known and unknown categories, with only partial labels given for the known categories, posing a challenging open-set recognition problem. State-of-the-art approaches for GCD task are usually built on multi-modality representation learning, which is heavily dependent upon inter-modality alignment. However, few of them cast a proper intra-modality alignment to generate a desired underlying structure of representation distributions. In this paper, we propose a novel and effective multi-modal representation learning framework for GCD via Semi-Supervised Rate Reduction, called SSR$^2$-GCD, to learn cross-modality representations with desired structural properties based on emphasizing to properly align intra-modality relationships. Moreover, to boost knowledge transfer, we integrate prompt candidates by leveraging the inter-modal alignment offered by Vision Language Models. We conduct extensive experiments on generic and fine-grained benchmark datasets demonstrating superior performance of our approach.


翻译:广义类别发现(GCD)旨在识别已知与未知类别,仅给定已知类别的部分标签,构成了一个具有挑战性的开放集识别问题。当前GCD任务的最先进方法通常建立在多模态表示学习之上,其高度依赖于模态间对齐。然而,这些方法大多未能实施恰当的模态内对齐以生成理想的表示分布底层结构。本文提出一种新颖且有效的多模态表示学习框架,通过半监督率降低(Semi-Supervised Rate Reduction)用于GCD,称为SSR$^2$-GCD,该框架基于强调正确对齐模态内关系,以学习具有理想结构特性的跨模态表示。此外,为促进知识迁移,我们通过利用视觉语言模型提供的模态间对齐来整合提示候选。我们在通用与细粒度基准数据集上进行了大量实验,结果表明所提方法具有优越性能。

0
下载
关闭预览

相关内容

多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
半监督深度学习小结:类协同训练和一致性正则化
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
【CMU博士论文】迈向可解释机器学习的理论基础
专知会员服务
0+阅读 · 今天12:23
基于数据优化的人机协同与机器人僚机
专知会员服务
4+阅读 · 今天2:08
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
相关VIP内容
多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员