CLIP-based prompt tuning enables pretrained Vision-Language Models (VLMs) to efficiently adapt to downstream tasks. Although existing studies have made significant progress, they pay limited attention to changes in the internal attention representations of VLMs during the tuning process. In this paper, we attribute the failure modes of prompt tuning predictions to shifts in foreground attention of the visual encoder, and propose Foreground View-Guided Prompt Tuning (FVG-PT), an adaptive plug-and-play foreground attention guidance module, to alleviate the shifts. Concretely, FVG-PT introduces a learnable Foreground Reliability Gate to automatically enhance the foreground view quality, applies a Foreground Distillation Compensation module to guide visual attention toward the foreground, and further introduces a Prior Calibration module to mitigate generalization degradation caused by excessive focus on the foreground. Experiments on multiple backbone models and datasets show the effectiveness and compatibility of FVG-PT. Codes are available at: https://github.com/JREion/FVG-PT


翻译:基于CLIP的提示调优使得预训练的视觉语言模型能够高效地适应下游任务。尽管现有研究已取得显著进展,但它们对调优过程中视觉语言模型内部注意力表征的变化关注有限。本文认为,提示调优预测的失败模式可归因于视觉编码器前景注意力的偏移,并提出前景视图引导提示调优(FVG-PT),一种自适应的即插即用前景注意力引导模块,以缓解此类偏移。具体而言,FVG-PT引入可学习的前景可靠性门控以自动提升前景视图质量,应用前景蒸馏补偿模块引导视觉注意力聚焦于前景区域,并进一步引入先验校准模块以缓解因过度关注前景而导致的泛化性能下降。在多个骨干模型和数据集上的实验验证了FVG-PT的有效性与兼容性。代码发布于:https://github.com/JREion/FVG-PT

0
下载
关闭预览

相关内容

大规模视觉模型中的基于提示的适应:综述
专知会员服务
21+阅读 · 2025年10月26日
大规模视觉模型中的提示式适配:综述
专知会员服务
17+阅读 · 2025年10月16日
提示调优综述
专知会员服务
18+阅读 · 2025年7月10日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
【南洋理工-CVPR2022】视觉语言模型的条件提示学习
专知会员服务
34+阅读 · 2022年3月13日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
大规模视觉模型中的基于提示的适应:综述
专知会员服务
21+阅读 · 2025年10月26日
大规模视觉模型中的提示式适配:综述
专知会员服务
17+阅读 · 2025年10月16日
提示调优综述
专知会员服务
18+阅读 · 2025年7月10日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
【南洋理工-CVPR2022】视觉语言模型的条件提示学习
专知会员服务
34+阅读 · 2022年3月13日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员