PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification - 专知论文

会员服务 ·

0

蒸馏 · 邻域 · 细粒度 · 细粒度视觉分类 · 粒度 ·

PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification

翻译：PAND：面向轻量化细粒度视觉分类的提示感知邻域蒸馏

Qiuming Luo,Yuebing Li,Feng Li,Chang Kong

from arxiv, 6pages, 3 figures, conference

Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual Classification (FGVC), due to the reliance on fixed prompts and global alignment. To address this, we propose PAND (Prompt-Aware Neighborhood Distillation), a two-stage framework that decouples semantic calibration from structural transfer. First, we incorporate Prompt-Aware Semantic Calibration to generate adaptive semantic anchors. Second, we introduce a neighborhood-aware structural distillation strategy to constrain the student's local decision structure. PAND consistently outperforms state-of-the-art methods on four FGVC benchmarks. Notably, our ResNet-18 student achieves 76.09% accuracy on CUB-200, surpassing the strong baseline VL2Lite by 3.4%. Code is available at https://github.com/LLLVTA/PAND.

翻译：在细粒度视觉分类（FGVC）中，由于对固定提示和全局对齐的依赖，将大型视觉语言模型（VLMs）的知识蒸馏到轻量级网络中至关重要且具有挑战性。为解决此问题，我们提出了PAND（提示感知邻域蒸馏），这是一个将语义校准与结构传递解耦的两阶段框架。首先，我们引入提示感知语义校准来生成自适应的语义锚点。其次，我们提出了一种邻域感知的结构蒸馏策略，以约束学生网络的局部决策结构。PAND在四个FGVC基准测试中始终优于最先进的方法。值得注意的是，我们的ResNet-18学生模型在CUB-200上达到了76.09%的准确率，比强大的基线VL2Lite高出3.4%。代码可在 https://github.com/LLLVTA/PAND 获取。

0

相关内容

提示学习在计算机视觉中的分类、应用及展望

提示学习在计算机视觉中的分类、应用及展望

专知会员服务

20+阅读 · 2025年6月18日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

专知会员服务

14+阅读 · 2025年4月12日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

专知会员服务

10+阅读 · 2025年3月1日

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

专知会员服务

21+阅读 · 2024年3月8日

【ICCV2023】视觉Transformers的累积空间知识蒸馏

【ICCV2023】视觉Transformers的累积空间知识蒸馏

专知会员服务

38+阅读 · 2023年7月18日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知会员服务

23+阅读 · 2021年11月21日

【CVPR2021】深度学习细粒度视觉分析

【CVPR2021】深度学习细粒度视觉分析

专知会员服务

37+阅读 · 2021年6月23日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【旷视出品】细粒度图像分析综述

【旷视出品】细粒度图像分析综述

专知

15+阅读 · 2019年7月11日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

泡泡机器人SLAM

24+阅读 · 2018年7月18日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

实战 | 基于深度学习模型VGG的图像识别（附代码）

实战 | 基于深度学习模型VGG的图像识别（附代码）

七月在线实验室

13+阅读 · 2018年3月30日

基于空间-光谱结构稀疏编码的多波段夜视目标识别技术

国家自然科学基金

1+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

Arxiv

0+阅读 · 3月15日

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

Arxiv

0+阅读 · 3月9日

Specificity-aware reinforcement learning for fine-grained open-world classification

Arxiv

0+阅读 · 3月3日

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

Arxiv

0+阅读 · 2月19日

Car-1000: A New Large Scale Fine-Grained Visual Categorization Dataset

Arxiv

0+阅读 · 2月15日

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Arxiv

0+阅读 · 2月12日

ProAPO: Progressively Automatic Prompt Optimization for Visual Classification

Arxiv

0+阅读 · 2月11日

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Arxiv

0+阅读 · 2月7日

PANC: Prior-Aware Normalized Cut for Object Segmentation

Arxiv

0+阅读 · 2月6日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

细粒度视觉分类

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

提示学习在计算机视觉中的分类、应用及展望

提示学习在计算机视觉中的分类、应用及展望

专知会员服务

20+阅读 · 2025年6月18日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

专知会员服务

14+阅读 · 2025年4月12日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

专知会员服务

10+阅读 · 2025年3月1日

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

专知会员服务

21+阅读 · 2024年3月8日

【ICCV2023】视觉Transformers的累积空间知识蒸馏

【ICCV2023】视觉Transformers的累积空间知识蒸馏

专知会员服务

38+阅读 · 2023年7月18日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知会员服务

23+阅读 · 2021年11月21日

【CVPR2021】深度学习细粒度视觉分析

【CVPR2021】深度学习细粒度视觉分析

专知会员服务

37+阅读 · 2021年6月23日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【旷视出品】细粒度图像分析综述

【旷视出品】细粒度图像分析综述

专知

15+阅读 · 2019年7月11日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

泡泡机器人SLAM

24+阅读 · 2018年7月18日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

实战 | 基于深度学习模型VGG的图像识别（附代码）

实战 | 基于深度学习模型VGG的图像识别（附代码）

七月在线实验室

13+阅读 · 2018年3月30日

相关论文

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

Arxiv

0+阅读 · 3月15日

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

Arxiv

0+阅读 · 3月9日

Specificity-aware reinforcement learning for fine-grained open-world classification

Arxiv

0+阅读 · 3月3日

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

Arxiv

0+阅读 · 2月19日

Car-1000: A New Large Scale Fine-Grained Visual Categorization Dataset

Arxiv

0+阅读 · 2月15日

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Arxiv

0+阅读 · 2月12日

ProAPO: Progressively Automatic Prompt Optimization for Visual Classification

Arxiv

0+阅读 · 2月11日

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Arxiv

0+阅读 · 2月7日

PANC: Prior-Aware Normalized Cut for Object Segmentation

Arxiv

0+阅读 · 2月6日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

相关基金

基于空间-光谱结构稀疏编码的多波段夜视目标识别技术

国家自然科学基金

1+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员