Generalized Category Discovery (GCD) aims to classify instances from both known and novel categories within a large-scale unlabeled dataset, a critical yet challenging task for real-world, open-world applications. However, existing methods often rely on pseudo-labeling, or two-stage clustering, which lack a principled mechanism to explicitly disentangle essential, category-defining signals from instance-specific noise. In this paper, we address this fundamental limitation by re-framing GCD from an information-theoretic perspective, grounded in the Information Bottleneck (IB) principle. We introduce InfoSculpt, a novel framework that systematically sculpts the representation space by minimizing a dual Conditional Mutual Information (CMI) objective. InfoSculpt uniquely combines a Category-Level CMI on labeled data to learn compact and discriminative representations for known classes, and a complementary Instance-Level CMI on all data to distill invariant features by compressing augmentation-induced noise. These two objectives work synergistically at different scales to produce a disentangled and robust latent space where categorical information is preserved while noisy, instance-specific details are discarded. Extensive experiments on 8 benchmarks demonstrate that InfoSculpt validating the effectiveness of our information-theoretic approach.


翻译:广义类别发现(GCD)旨在对大规模未标记数据集中的已知类别和新颖类别实例进行分类,这是现实世界开放世界应用中一项关键且具有挑战性的任务。然而,现有方法通常依赖于伪标签或两阶段聚类,缺乏一种原则性机制来显式地从实例特定噪声中解耦出本质的、定义类别的信号。在本文中,我们从信息论视角出发,基于信息瓶颈(IB)原理,重新构建GCD以解决这一根本性局限。我们提出了InfoSculpt,一个通过最小化双重条件互信息(CMI)目标来系统塑造表示空间的新颖框架。InfoSculpt独特地结合了在标注数据上的类别级CMI以学习已知类别的紧凑且具有判别性的表示,以及在所有数据上的互补性实例级CMI,通过压缩由数据增强引入的噪声来提取不变特征。这两个目标在不同尺度上协同工作,产生一个解耦且鲁棒的潜在空间,其中类别信息得以保留,而嘈杂的、实例特定的细节则被摒弃。在8个基准数据集上的大量实验证明了InfoSculpt的有效性,验证了我们信息论方法的优越性。

0
下载
关闭预览

相关内容

细粒度图像分类的深度学习方法
专知会员服务
43+阅读 · 2021年10月18日
【WWW2021】充分利用层级结构进行自监督分类法扩展
专知会员服务
16+阅读 · 2021年2月7日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
40+阅读 · 2019年8月18日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员