Vision-language models (VLMs) like CLIP are trained with the objective of aligning text and image pairs. To improve CLIP-based few-shot image classification, recent works have observed that, along with text embeddings, image embeddings from the training set are an important source of information. In this work we investigate the impact of directly mixing image and text prototypes for few-shot classification and analyze this from a bias-variance perspective. We show that mixing prototypes acts like a shrinkage estimator. Although mixed prototypes improve classification performance, the image prototypes still add some noise in the form of instance-specific background or context information. In order to capture only information from the image space relevant to the given classification task, we propose projecting image prototypes onto the principal directions of the semantic text embedding space to obtain a text-aligned semantic image subspace. These text-aligned image prototypes, when mixed with text embeddings, further improve classification. However, for downstream datasets with poor cross-modal alignment in CLIP, semantic alignment might be suboptimal. We show that the image subspace can still be leveraged by modeling the anisotropy using class covariances. We demonstrate that combining a text-aligned mixed prototype classifier and an image-specific LDA classifier outperforms existing methods across few-shot classification benchmarks.


翻译:视觉-语言模型(如CLIP)以对齐文本与图像对为目标进行训练。为改进基于CLIP的少样本图像分类,近期研究发现,除文本嵌入外,训练集中的图像嵌入也是重要信息来源。本文从偏差-方差角度直接探讨了图像与文本原型混合对少样本分类的影响,并论证混合原型可作为收缩估计器。尽管混合原型提升了分类性能,但图像原型仍会引入实例特有的背景或上下文信息形式的噪声。为仅捕获与给定分类任务相关的图像空间信息,我们提出将图像原型投影至语义文本嵌入空间的主方向上,以构建与文本对齐的语义图像子空间。当这些经文本对齐的图像原型与文本嵌入混合时,可进一步改善分类效果。然而对于CLIP中跨模态对齐较弱的下游数据集,语义对齐可能不理想。研究表明,可通过使用类协方差建模各向异性来利用图像子空间。我们证明,结合文本对齐的混合原型分类器与图像特定的LDA分类器,在多个少样本分类基准测试中均优于现有方法。

0
下载
关闭预览

相关内容

《多模态大模型少样本自适应》综述
专知会员服务
103+阅读 · 2024年1月4日
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
20+阅读 · 2022年4月13日
【CVPR2022】整合少样本学习的分类和分割
专知会员服务
28+阅读 · 2022年3月31日
【Mila】通用表示Transformer少样本图像分类
专知会员服务
33+阅读 · 2020年9月7日
小样本学习(Few-shot Learning)综述
云栖社区
22+阅读 · 2019年4月6日
深度神经网络模型训练中的最新tricks总结【原理与代码汇总】
人工智能前沿讲习班
172+阅读 · 2019年3月6日
半监督深度学习小结:类协同训练和一致性正则化
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《多模态大模型少样本自适应》综述
专知会员服务
103+阅读 · 2024年1月4日
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
20+阅读 · 2022年4月13日
【CVPR2022】整合少样本学习的分类和分割
专知会员服务
28+阅读 · 2022年3月31日
【Mila】通用表示Transformer少样本图像分类
专知会员服务
33+阅读 · 2020年9月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员