Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual Classification (FGVC), due to the reliance on fixed prompts and global alignment. To address this, we propose PAND (Prompt-Aware Neighborhood Distillation), a two-stage framework that decouples semantic calibration from structural transfer. First, we incorporate Prompt-Aware Semantic Calibration to generate adaptive semantic anchors. Second, we introduce a neighborhood-aware structural distillation strategy to constrain the student's local decision structure. PAND consistently outperforms state-of-the-art methods on four FGVC benchmarks. Notably, our ResNet-18 student achieves 76.09% accuracy on CUB-200, surpassing the strong baseline VL2Lite by 3.4%. Code is available at https://github.com/LLLVTA/PAND.


翻译:在细粒度视觉分类任务中,由于对固定提示和全局对齐的依赖,将大型视觉语言模型的知识蒸馏至轻量化网络至关重要且具有挑战性。为此,我们提出PAND(提示感知邻域蒸馏),这是一个将语义校准与结构传递解耦的两阶段框架。首先,我们引入提示感知语义校准以生成自适应语义锚点。其次,我们提出一种邻域感知的结构蒸馏策略,以约束学生模型的局部决策结构。PAND在四个细粒度视觉分类基准数据集上均持续优于现有最优方法。值得注意的是,我们的ResNet-18学生模型在CUB-200数据集上取得了76.09%的准确率,较强基线VL2Lite提升了3.4%。代码公开于 https://github.com/LLLVTA/PAND。

0
下载
关闭预览

相关内容

提示学习在计算机视觉中的分类、应用及展望
专知会员服务
19+阅读 · 2025年6月18日
【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型
专知会员服务
21+阅读 · 2024年3月8日
【ICCV2023】视觉Transformers的累积空间知识蒸馏
专知会员服务
38+阅读 · 2023年7月18日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员