Vision-language models (VLMs) have made significant progress in image classification by training with large-scale paired image-text data. Their performances largely depend on the prompt quality. While recent methods show that visual descriptions generated by large language models (LLMs) enhance the generalization of VLMs, class-specific prompts may be inaccurate or lack discrimination due to the hallucination in LLMs. In this paper, we aim to find visually discriminative prompts for fine-grained categories with minimal supervision and no human-in-the-loop. An evolution-based algorithm is proposed to progressively optimize language prompts from task-specific templates to class-specific descriptions. Unlike optimizing templates, the search space shows an explosion in class-specific candidate prompts. This increases prompt generation costs, iterative times, and the overfitting problem. To this end, we first introduce several simple yet effective edit-based and evolution-based operations to generate diverse candidate prompts by one-time query of LLMs. Then, two sampling strategies are proposed to find a better initial search point and reduce traversed categories, saving iteration costs. Moreover, we apply a novel fitness score with entropy constraints to mitigate overfitting. In a challenging one-shot image classification setting, our method outperforms existing textual prompt-based methods and improves LLM-generated description methods across 13 datasets. Meanwhile, we demonstrate that our optimal prompts improve adapter-based methods and transfer effectively across different backbones.


翻译:视觉语言模型(VLMs)通过在大规模配对图像-文本数据上进行训练,在图像分类任务中取得了显著进展。其性能在很大程度上取决于提示词的质量。尽管近期研究表明,由大语言模型(LLMs)生成的视觉描述能够增强VLMs的泛化能力,但由于LLMs存在幻觉问题,针对特定类别的提示词可能不准确或缺乏区分性。本文旨在以最小监督且无需人工介入的方式,为细粒度类别寻找具有视觉区分度的提示词。我们提出一种基于进化的算法,将语言提示词从任务特定模板逐步优化至类别特定描述。与优化模板不同,类别特定候选提示词的搜索空间呈爆炸式增长,这增加了提示生成成本、迭代次数以及过拟合风险。为此,我们首先引入几种简单而有效的基于编辑和进化的操作,通过单次查询LLMs生成多样化的候选提示词。随后,提出两种采样策略以寻找更优的初始搜索点并减少遍历的类别数量,从而节省迭代成本。此外,我们采用一种结合熵约束的新型适应度评分来缓解过拟合问题。在具有挑战性的单样本图像分类设定下,本方法在13个数据集上超越了现有基于文本提示的方法,并改进了LLM生成描述的方法。同时,我们证明所获得的最优提示词能够提升基于适配器的方法的性能,并能有效迁移至不同骨干网络。

0
下载
关闭预览

相关内容

在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
CLIP通用提示学习的简要概述
专知会员服务
16+阅读 · 2025年3月13日
【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类
专知会员服务
15+阅读 · 2025年3月1日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展
专知会员服务
21+阅读 · 2024年3月9日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关VIP内容
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
CLIP通用提示学习的简要概述
专知会员服务
16+阅读 · 2025年3月13日
【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类
专知会员服务
15+阅读 · 2025年3月1日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展
专知会员服务
21+阅读 · 2024年3月9日
相关资讯
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员