Prompt learning is a parameter-efficient approach for vision-language models, yet its robustness under label noise is less investigated. Visual content contains richer and more reliable semantic information, which remains more robust under label noise. However, the prompt itself is highly susceptible to label noise. Motivated by this intuition, we propose VisPrompt, a lightweight and robust vision-guided prompt learning framework for noisy-label settings. Specifically, we exploit a cross-modal attention mechanism to reversely inject visual semantics into prompt representations. This enables the prompt tokens to selectively aggregate visual information relevant to the current sample, thereby improving robustness by anchoring prompt learning to stable instance-level visual evidence and reducing the influence of noisy supervision. To address the instability caused by using the same way of injecting visual information for all samples, despite differences in the quality of their visual cues, we further introduce a lightweight conditional modulation mechanism to adaptively control the strength of visual information injection, which strikes a more robust balance between text-side semantic priors and image-side instance evidence. The proposed framework effectively suppresses the noise-induced disturbances, reduce instability in prompt updates, and alleviate memorization of mislabeled samples. VisPrompt significantly improves robustness while keeping the pretrained VLM backbone frozen and introducing only a small amount of additional trainable parameters. Extensive experiments under synthetic and real-world label noise demonstrate that VisPrompt generally outperforms existing baselines on seven benchmark datasets and achieves stronger robustness. Our code is publicly available at https://github.com/gezbww/Vis_Prompt.


翻译:提示学习是视觉-语言模型中一种参数高效的方法,但其在标签噪声下的鲁棒性研究较少。视觉内容包含更丰富且可靠的语义信息,在标签噪声中更为鲁棒。然而,提示本身极易受标签噪声影响。受此直觉启发,我们提出VisPrompt——一种面向噪声标签场景的轻量级鲁棒视觉引导提示学习框架。具体而言,我们利用跨模态注意力机制将视觉语义反向注入提示表征,使提示令牌能够选择性聚合与当前样本相关的视觉信息,通过将提示学习锚定到稳定的实例级视觉证据来提升鲁棒性,并减少噪声监督的影响。针对不同样本视觉线索质量差异导致统一注入方式的不稳定性,我们进一步引入轻量级条件调制机制,自适应控制视觉信息注入强度,在文本侧语义先验与图像侧实例证据间建立更鲁棒的平衡。该框架有效抑制噪声引起的扰动,降低提示更新不稳定性,并缓解对错误标注样本的记忆。VisPrompt在保持预训练VLM骨干冻结且仅引入少量可训练参数的情况下,显著提升鲁棒性。在合成与真实标签噪声下的广泛实验表明,VisPrompt在七个基准数据集上全面优于现有基线方法,展现出更强的鲁棒性。我们的代码已公开于https://github.com/gezbww/Vis_Prompt。

0
下载
关闭预览

相关内容

【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
视觉提示学习综述
专知会员服务
55+阅读 · 2024年3月23日
【CVPR2023】带有噪声标签的孪生对比学习
专知会员服务
33+阅读 · 2023年3月16日
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
20+阅读 · 2022年4月13日
专知会员服务
101+阅读 · 2020年7月20日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【学界】虚拟对抗训练:一种新颖的半监督学习正则化方法
GAN生成式对抗网络
10+阅读 · 2019年6月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 4月2日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
视觉提示学习综述
专知会员服务
55+阅读 · 2024年3月23日
【CVPR2023】带有噪声标签的孪生对比学习
专知会员服务
33+阅读 · 2023年3月16日
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
20+阅读 · 2022年4月13日
专知会员服务
101+阅读 · 2020年7月20日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员