Improving Visual Prompt Tuning for Self-supervised Vision Transformers - 专知论文

会员服务 ·

0

块 · Prompt · tuning · 图片分类 · Vision ·

2023 年 6 月 8 日

Improving Visual Prompt Tuning for Self-supervised Vision Transformers

翻译：改善自监督视觉Transformer的视觉提示微调方法

Seungryong Yoo,Eunji Kim,Dahuin Jung,Jungbeom Lee,Sungroh Yoon

from arxiv, International Conference on Machine Learning (ICML) 2023

Visual Prompt Tuning (VPT) is an effective tuning method for adapting pretrained Vision Transformers (ViTs) to downstream tasks. It leverages extra learnable tokens, known as prompts, which steer the frozen pretrained ViTs. Although VPT has demonstrated its applicability with supervised vision transformers, it often underperforms with self-supervised ones. Through empirical observations, we deduce that the effectiveness of VPT hinges largely on the ViT blocks with which the prompt tokens interact. Specifically, VPT shows improved performance on image classification tasks for MAE and MoCo v3 when the prompt tokens are inserted into later blocks rather than the first block. These observations suggest that there exists an optimal location of blocks for the insertion of prompt tokens. Unfortunately, identifying the optimal blocks for prompts within each self-supervised ViT for diverse future scenarios is a costly process. To mitigate this problem, we propose a simple yet effective method that learns a gate for each ViT block to adjust its intervention into the prompt tokens. With our method, prompt tokens are selectively influenced by blocks that require steering for task adaptation. Our method outperforms VPT variants in FGVC and VTAB image classification and ADE20K semantic segmentation. The code is available at https://github.com/ryongithub/GatedPromptTuning.

翻译：视觉提示微调（VPT）是一种面向下游任务适配预训练视觉Transformer（ViTs）的有效微调方法。该方法利用额外可学习的提示令牌（prompts）来引导冻结的预训练ViTs。尽管VPT已在有监督视觉Transformer中展现出适用性，但在自监督Transformer中往往表现欠佳。通过实验观察，我们发现VPT的有效性在很大程度上取决于提示令牌所交互的ViT模块。具体而言，当提示令牌插入到后续模块而非首个模块时，VPT在MAE和MoCo v3的图像分类任务中性能显著提升。这些观察表明，提示令牌存在最优插入位置。然而，针对不同未来场景，为每个自监督ViT确定最优提示模块位置的成本过高。为解决该问题，我们提出一种简单有效的方法：为每个ViT模块学习一个门控机制，以调节其对提示令牌的干预程度。通过该方法，提示令牌可根据任务适配需求，有选择性地接收需要调整的模块影响。在FGVC和VTAB图像分类以及ADE20K语义分割任务中，我们的方法显著优于VPT变体。代码已开源至https://github.com/ryongithub/GatedPromptTuning。

0

相关内容

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

专知会员服务

86+阅读 · 2023年6月19日

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

专知会员服务

35+阅读 · 2022年3月5日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

DMRTA1/RAGE调控肝脏胰岛素抵抗的分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向高渗透率分布式光伏的分层储能系统布局配置优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

发射光谱解析常压均匀放电等离子体处理服用丙纶表面的反应机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

靶向LDH-A能量代谢对T细胞急性淋巴细胞白血病的抗白血病效应及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

EC-SOD基因转染骨髓间充质干细胞延长犬急性脑梗塞“时间窗”的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

syndecan 4对心肌梗死合并糖尿病病人血管新生的影响及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

碳纳米管负载的双金属纳米粒子复合材料的制备及应用

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下数据中心的power capping关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

含氰重金属废水中铁氰配离子插层的多元重金属LDH沉淀的调控形成与污染物的同步净化

国家自然科学基金

0+阅读 · 2011年12月31日

HAT/HDAC失衡与乙酰化修饰异常：急性肺损伤炎症失控新机制

国家自然科学基金

0+阅读 · 2009年12月31日

PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers

Arxiv

0+阅读 · 2023年7月31日

SimDETR: Simplifying self-supervised pretraining for DETR

Arxiv

0+阅读 · 2023年7月28日

WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for Wikipedia Categories

Arxiv

0+阅读 · 2023年7月28日

Pre-training Vision Transformers with Very Limited Synthesized Images

Arxiv

0+阅读 · 2023年7月27日

Leveraging Large Language Models for Mental Health Prediction via Online Text Data

Arxiv

0+阅读 · 2023年7月26日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

VIP会员

文章信息

相关主题

最新内容

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

1+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

1+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

5+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

1+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

2+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

17+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

相关VIP内容

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

专知会员服务

86+阅读 · 2023年6月19日

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

33页PPT【AI+天气预测】，AI and Machine learning for weather predictions

专知会员服务

35+阅读 · 2022年3月5日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《通过小型无人机系统将情报能力“作战化”》

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

《通用大语言模型：无人机指挥与控制接口》最新40页

相关资讯

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers

Arxiv

0+阅读 · 2023年7月31日

SimDETR: Simplifying self-supervised pretraining for DETR

Arxiv

0+阅读 · 2023年7月28日

WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for Wikipedia Categories

Arxiv

0+阅读 · 2023年7月28日

Pre-training Vision Transformers with Very Limited Synthesized Images

Arxiv

0+阅读 · 2023年7月27日

Leveraging Large Language Models for Mental Health Prediction via Online Text Data

Arxiv

0+阅读 · 2023年7月26日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

相关基金

DMRTA1/RAGE调控肝脏胰岛素抵抗的分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向高渗透率分布式光伏的分层储能系统布局配置优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

发射光谱解析常压均匀放电等离子体处理服用丙纶表面的反应机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

靶向LDH-A能量代谢对T细胞急性淋巴细胞白血病的抗白血病效应及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

EC-SOD基因转染骨髓间充质干细胞延长犬急性脑梗塞“时间窗”的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

syndecan 4对心肌梗死合并糖尿病病人血管新生的影响及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

碳纳米管负载的双金属纳米粒子复合材料的制备及应用

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下数据中心的power capping关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

含氰重金属废水中铁氰配离子插层的多元重金属LDH沉淀的调控形成与污染物的同步净化

国家自然科学基金

0+阅读 · 2011年12月31日

HAT/HDAC失衡与乙酰化修饰异常：急性肺损伤炎症失控新机制

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员