Visual Prompt-Agnostic Evolution - 专知论文

会员服务 ·

0

视觉提示 · 令牌 · 下游任务 · 振荡 · 跨层 ·

Visual Prompt-Agnostic Evolution

翻译：视觉提示无关演化

Junze Wang,Lei Fan,Dezheng Zhang,Weipeng Jing,Donglin Di,Yang Song,Sidong Liu,Cong Cong

from arxiv, Accepted by ICLR 2026

Visual Prompt Tuning (VPT) adapts a frozen Vision Transformer (ViT) to downstream tasks by inserting a small number of learnable prompt tokens into the token sequence at each layer. However, we observe that existing VPT variants often suffer from unstable training dynamics, characterized by gradient oscillations. A layer-wise analysis reveals that shallow-layer prompts tend to stagnate early, while deeper-layer prompts exhibit high-variance oscillations, leading to cross-layer mismatch. These issues slow convergence and degrade final performance. To address these challenges, we propose Prompt-Agnostic Evolution ($\mathtt{PAE}$), which strengthens vision prompt tuning by explicitly modeling prompt dynamics. From a frequency-domain perspective, we initialize prompts in a task-aware direction by uncovering and propagating frequency shortcut patterns that the backbone inherently exploits for recognition. To ensure coherent evolution across layers, we employ a shared Koopman operator that imposes a global linear transformation instead of uncoordinated, layer-specific updates. Finally, inspired by Lyapunov stability theory, we introduce a regularizer that constrains error amplification during evolution. Extensive experiments show that $\mathtt{PAE}$ accelerates convergence with an average $1.41\times$ speedup and improves accuracy by 1-3% on 25 datasets across multiple downstream tasks. Beyond performance, $\mathtt{PAE}$ is prompt-agnostic and lightweight, and it integrates seamlessly with diverse VPT variants without backbone modification or inference-time changes.

翻译：视觉提示调优（VPT）通过在每个层的令牌序列中插入少量可学习的提示令牌，使冻结的视觉Transformer（ViT）适应下游任务。然而，我们观察到现有的VPT变体常常遭受训练动态不稳定的困扰，其特点是梯度振荡。逐层分析表明，浅层提示往往过早停滞，而深层提示则表现出高方差振荡，导致跨层不匹配。这些问题减缓了收敛速度并降低了最终性能。为应对这些挑战，我们提出了提示无关演化（$\mathtt{PAE}$），它通过显式建模提示动态来增强视觉提示调优。从频域视角出发，我们通过揭示并传播主干网络在识别过程中固有利用的频率捷径模式，将提示初始化在任务感知的方向上。为确保跨层的连贯演化，我们采用共享的Koopman算子，施加全局线性变换，而非不协调的、层特定的更新。最后，受李雅普诺夫稳定性理论启发，我们引入了一个正则化器，以约束演化过程中的误差放大。大量实验表明，$\mathtt{PAE}$在多个下游任务的25个数据集上，平均加速收敛$1.41\times$，并将准确率提高1-3%。除了性能提升，$\mathtt{PAE}$具有提示无关性和轻量级特性，并且无需修改主干网络或改变推理过程，即可与多种VPT变体无缝集成。

0

相关内容

视觉提示

大规模视觉模型中的基于提示的适应：综述

大规模视觉模型中的基于提示的适应：综述

专知会员服务

21+阅读 · 2025年10月26日

大规模视觉模型中的提示式适配：综述

大规模视觉模型中的提示式适配：综述

专知会员服务

17+阅读 · 2025年10月16日

提示学习在计算机视觉中的分类、应用及展望

提示学习在计算机视觉中的分类、应用及展望

专知会员服务

19+阅读 · 2025年6月18日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

专知会员服务

10+阅读 · 2025年3月11日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

专知会员服务

82+阅读 · 2023年6月30日

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

【ICML2023】Hiera: 一个无需花哨附加功能的分层视觉Transformer

【ICML2023】Hiera: 一个无需花哨附加功能的分层视觉Transformer

专知会员服务

25+阅读 · 2023年6月3日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

【最新综述】无监督网络表示学习综述，附18页全文下载

【最新综述】无监督网络表示学习综述，附18页全文下载

专知

28+阅读 · 2019年3月20日

无需干净样本，英伟达AI去马赛克

无需干净样本，英伟达AI去马赛克

AR酱

10+阅读 · 2018年7月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

在轨视频图像特征提取与压缩关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

Projection-Free Evolution Strategies for Continuous Prompt Search

Arxiv

0+阅读 · 3月14日

RAViT: Resolution-Adaptive Vision Transformer

Arxiv

0+阅读 · 2月27日

Tuning-free Visual Effect Transfer across Videos

Arxiv

0+阅读 · 2月18日

Simple Self Organizing Map with Vision Transformers

Arxiv

0+阅读 · 2月18日

Optimizing Soft Prompt Tuning via Structural Evolution

Arxiv

0+阅读 · 2月18日

VariViT: A Vision Transformer for Variable Image Sizes

Arxiv

0+阅读 · 2月16日

Revisit Visual Prompt Tuning: The Expressiveness of Prompt Experts

Arxiv

0+阅读 · 2月11日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

Visual Personalization Turing Test

Arxiv

0+阅读 · 1月30日

VAT: Vision Action Transformer by Unlocking Full Representation of ViT

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

大规模视觉模型中的基于提示的适应：综述

大规模视觉模型中的基于提示的适应：综述

专知会员服务

21+阅读 · 2025年10月26日

大规模视觉模型中的提示式适配：综述

大规模视觉模型中的提示式适配：综述

专知会员服务

17+阅读 · 2025年10月16日

提示学习在计算机视觉中的分类、应用及展望

提示学习在计算机视觉中的分类、应用及展望

专知会员服务

19+阅读 · 2025年6月18日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

专知会员服务

10+阅读 · 2025年3月11日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

专知会员服务

82+阅读 · 2023年6月30日

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

【ICML2023】Hiera: 一个无需花哨附加功能的分层视觉Transformer

【ICML2023】Hiera: 一个无需花哨附加功能的分层视觉Transformer

专知会员服务

25+阅读 · 2023年6月3日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

【最新综述】无监督网络表示学习综述，附18页全文下载

【最新综述】无监督网络表示学习综述，附18页全文下载

专知

28+阅读 · 2019年3月20日

无需干净样本，英伟达AI去马赛克

无需干净样本，英伟达AI去马赛克

AR酱

10+阅读 · 2018年7月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Projection-Free Evolution Strategies for Continuous Prompt Search

Arxiv

0+阅读 · 3月14日

RAViT: Resolution-Adaptive Vision Transformer

Arxiv

0+阅读 · 2月27日

Tuning-free Visual Effect Transfer across Videos

Arxiv

0+阅读 · 2月18日

Simple Self Organizing Map with Vision Transformers

Arxiv

0+阅读 · 2月18日

Optimizing Soft Prompt Tuning via Structural Evolution

Arxiv

0+阅读 · 2月18日

VariViT: A Vision Transformer for Variable Image Sizes

Arxiv

0+阅读 · 2月16日

Revisit Visual Prompt Tuning: The Expressiveness of Prompt Experts

Arxiv

0+阅读 · 2月11日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

Visual Personalization Turing Test

Arxiv

0+阅读 · 1月30日

VAT: Vision Action Transformer by Unlocking Full Representation of ViT

Arxiv

0+阅读 · 1月30日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

在轨视频图像特征提取与压缩关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员