SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery - 专知论文

会员服务 ·

0

模态 · 类别 · 表示 · 跨模态 · 广义 ·

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

翻译：SpectralGCD：面向广义类别发现的谱概念选择与跨模态表示学习

Lorenzo Caselli,Marco Mistretta,Simone Magistri,Andrew D. Bagdanov

from arxiv, Accepted at ICLR 2026. Code available at https://github.com/miccunifi/SpectralGCD

Generalized Category Discovery (GCD) aims to identify novel categories in unlabeled data while leveraging a small labeled subset of known classes. Training a parametric classifier solely on image features often leads to overfitting to old classes, and recent multimodal approaches improve performance by incorporating textual information. However, they treat modalities independently and incur high computational cost. We propose SpectralGCD, an efficient and effective multimodal approach to GCD that uses CLIP cross-modal image-concept similarities as a unified cross-modal representation. Each image is expressed as a mixture over semantic concepts from a large task-agnostic dictionary, which anchors learning to explicit semantics and reduces reliance on spurious visual cues. To maintain the semantic quality of representations learned by an efficient student, we introduce Spectral Filtering which exploits a cross-modal covariance matrix over the softmaxed similarities measured by a strong teacher model to automatically retain only relevant concepts from the dictionary. Forward and reverse knowledge distillation from the same teacher ensures that the cross-modal representations of the student remain both semantically sufficient and well-aligned. Across six benchmarks, SpectralGCD delivers accuracy comparable to or significantly superior to state-of-the-art methods at a fraction of the computational cost. The code is publicly available at: https://github.com/miccunifi/SpectralGCD.

翻译：广义类别发现（GCD）旨在利用已知类别的少量标注数据，识别未标注数据中的新类别。仅基于图像特征训练参数化分类器容易导致对旧类别的过拟合，而近期多模态方法通过引入文本信息提升了性能。然而，这些方法独立处理不同模态且计算成本高昂。本文提出SpectralGCD——一种高效且有效的GCD多模态方法，其使用CLIP跨模态图像-概念相似度作为统一的跨模态表示。每幅图像被表示为来自大型任务无关词典的语义概念的混合，从而将学习锚定于显式语义并减少对虚假视觉线索的依赖。为保持高效学生模型所学表示的语义质量，我们引入谱滤波技术：该方法利用强教师模型度量的softmax化相似度构建跨模态协方差矩阵，以自动从词典中仅保留相关概念。通过同一教师模型进行前向与反向知识蒸馏，确保学生的跨模态表示既语义充分又保持良好对齐。在六个基准测试中，SpectralGCD以远低于现有方法的计算成本，取得了与最先进方法相当或显著更优的准确率。代码已公开于：https://github.com/miccunifi/SpectralGCD。

0

相关内容

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

多模态知识图谱表示学习综述

多模态知识图谱表示学习综述

专知会员服务

72+阅读 · 2024年7月4日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

专知会员服务

38+阅读 · 2023年2月10日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

【CVPR 2020 Oral】小样本类增量学习

专知会员服务

112+阅读 · 2020年6月26日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class DA

专知会员服务

28+阅读 · 2020年3月2日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

专知会员服务

39+阅读 · 2019年11月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

Spectral Graph Filtering for Modality-Specific Representation Learning

Arxiv

0+阅读 · 3月10日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

Specificity-aware reinforcement learning for fine-grained open-world classification

Arxiv

0+阅读 · 3月3日

Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery

Arxiv

0+阅读 · 2月23日

GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

Arxiv

0+阅读 · 2月23日

SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery

Arxiv

0+阅读 · 2月13日

Delving into Spectral Clustering with Vision-Language Representations

Arxiv

0+阅读 · 2月10日

Consistent Supervised-Unsupervised Alignment for Generalized Category Discovery

Arxiv

0+阅读 · 2月4日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

8+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

多模态知识图谱表示学习综述

多模态知识图谱表示学习综述

专知会员服务

72+阅读 · 2024年7月4日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

专知会员服务

38+阅读 · 2023年2月10日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

【CVPR 2020 Oral】小样本类增量学习

专知会员服务

112+阅读 · 2020年6月26日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class DA

专知会员服务

28+阅读 · 2020年3月2日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

【CCF优秀博士学位论文奖-2019提名】增广信息学习，南京大学朱越

专知会员服务

39+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

相关论文

Spectral Graph Filtering for Modality-Specific Representation Learning

Arxiv

0+阅读 · 3月10日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

Specificity-aware reinforcement learning for fine-grained open-world classification

Arxiv

0+阅读 · 3月3日

Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery

Arxiv

0+阅读 · 2月23日

GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

Arxiv

0+阅读 · 2月23日

SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery

Arxiv

0+阅读 · 2月13日

Delving into Spectral Clustering with Vision-Language Representations

Arxiv

0+阅读 · 2月10日

Consistent Supervised-Unsupervised Alignment for Generalized Category Discovery

Arxiv

0+阅读 · 2月4日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员