Prompt Generation Networks for Input-based Adaptation of Frozen Vision Transformers - 专知论文

会员服务 ·

0

生成网络 · 自适应 · Prompt · 视觉Transformer · 微调 ·

2023 年 4 月 19 日

Prompt Generation Networks for Input-based Adaptation of Frozen Vision Transformers

翻译：提示生成网络：用于冻结视觉Transformer的输入自适应方法

Jochem Loedeman,Maarten C. Stol,Tengda Han,Yuki M. Asano

from arxiv, Tech report, 12 pages. Code: https://github.com/jochemloedeman/PGN

With the introduction of the transformer architecture in computer vision, increasing model scale has been demonstrated as a clear path to achieving performance and robustness gains. However, with model parameter counts reaching the billions, classical finetuning approaches are becoming increasingly limiting and even unfeasible when models become hosted as inference APIs, as in NLP. To this end, visual prompt learning, whereby a model is adapted by learning additional inputs, has emerged as a potential solution for adapting frozen and cloud-hosted models: During inference, this neither requires access to the internals of models' forward pass function, nor requires any post-processing. In this work, we propose the Prompt Generation Network (PGN) that generates high performing, input-dependent prompts by sampling from an end-to-end learned library of tokens. We further introduce the "prompt inversion" trick, with which PGNs can be efficiently trained in a latent space but deployed as strictly input-only prompts for inference. We show the PGN is effective in adapting pre-trained models to various new datasets: It surpasses previous methods by a large margin on 12/12 datasets and even outperforms full-finetuning on 5/12, while requiring 100x less parameters.

翻译：随着Transformer架构在计算机视觉领域的引入，增大模型规模已被证明是提升性能与鲁棒性的明确路径。然而，当模型参数量达到数十亿级别时，传统的微调方法逐渐显现局限性，甚至在模型以推理API形式托管（如自然语言处理领域）时变得不可行。为此，视觉提示学习——通过学习额外输入来适配模型——已成为适配冻结或云端托管模型的潜在解决方案：在推理过程中，该方法既无需访问模型前向传播函数内部，也无需任何后处理。本文提出提示生成网络（Prompt Generation Network, PGN），通过从端到端学习的词元库中采样，生成高性能且依赖输入的提示。我们进一步引入“提示反转”技巧，使PGN能够在潜在空间中高效训练，但推理时仅以纯输入提示的形式部署。实验表明，PGN能有效将预训练模型适配到多种新数据集：在12/12个数据集上大幅超越先前方法，甚至在5/12个数据集上超越全参数微调，同时所需参数量减少100倍。

0

相关内容

生成网络

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

专知会员服务

29+阅读 · 2022年8月12日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知会员服务

21+阅读 · 2021年4月21日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

专知会员服务

32+阅读 · 2019年10月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

7 Papers & Radios | NeurIPS'22获奖论文；英伟达一句话生成3D模型

7 Papers & Radios | NeurIPS'22获奖论文；英伟达一句话生成3D模型

机器之心

0+阅读 · 2022年11月27日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Deep Compression/Acceleration：模型压缩加速论文汇总

Deep Compression/Acceleration：模型压缩加速论文汇总

极市平台

14+阅读 · 2019年5月15日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

基于射频干涉的无线传感器网络目标节点定位与跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

用于GEM探测器的高集成度专用集成电路研制

国家自然科学基金

2+阅读 · 2013年12月31日

基于静息态和任务态的脑网络连接性fMRI研究运动想象训练促进皮层下脑卒中患者功能恢复的作用机制

国家自然科学基金

0+阅读 · 2013年12月31日

嵌入式多核环境中分区操作系统关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多尺度边缘感知的图像平滑和分层编辑研究

国家自然科学基金

0+阅读 · 2012年12月31日

压缩采样框架下的自适应稀疏信号感知与重建

国家自然科学基金

0+阅读 · 2009年12月31日

基于ISVM及VR的脑-机交互适应性研究

国家自然科学基金

0+阅读 · 2009年12月31日

异步低功耗LDPC解码器设计

国家自然科学基金

0+阅读 · 2009年12月31日

超宽带嵌入式变比特率音频编码算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning

Arxiv

0+阅读 · 2023年6月5日

Adaptive and Personalized Exercise Generation for Online Language Learning

Arxiv

0+阅读 · 2023年6月4日

Is Generative Modeling-based Stylization Necessary for Domain Adaptation in Regression Tasks?

Arxiv

0+阅读 · 2023年6月2日

Learning Landmarks Motion from Speech for Speaker-Agnostic 3D Talking Heads Generation

Arxiv

0+阅读 · 2023年6月2日

Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

Arxiv

0+阅读 · 2023年6月1日

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

Arxiv

0+阅读 · 2023年6月1日

SQL-PaLM: Improved Large Language ModelAdaptation for Text-to-SQL

Arxiv

0+阅读 · 2023年5月26日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

VIP会员

文章信息

相关主题

视觉Transformer

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

1+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

3+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

4+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

4+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

3+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

5+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

4+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

专知会员服务

29+阅读 · 2022年8月12日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知会员服务

21+阅读 · 2021年4月21日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

【ICCV 2019 Toturial】Interpretable Machine Learning for Computer Vision（用于计算机视觉的可解释性机器学习）

专知会员服务

32+阅读 · 2019年10月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

7 Papers & Radios | NeurIPS'22获奖论文；英伟达一句话生成3D模型

7 Papers & Radios | NeurIPS'22获奖论文；英伟达一句话生成3D模型

机器之心

0+阅读 · 2022年11月27日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Deep Compression/Acceleration：模型压缩加速论文汇总

Deep Compression/Acceleration：模型压缩加速论文汇总

极市平台

14+阅读 · 2019年5月15日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning

Arxiv

0+阅读 · 2023年6月5日

Adaptive and Personalized Exercise Generation for Online Language Learning

Arxiv

0+阅读 · 2023年6月4日

Is Generative Modeling-based Stylization Necessary for Domain Adaptation in Regression Tasks?

Arxiv

0+阅读 · 2023年6月2日

Learning Landmarks Motion from Speech for Speaker-Agnostic 3D Talking Heads Generation

Arxiv

0+阅读 · 2023年6月2日

Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

Arxiv

0+阅读 · 2023年6月1日

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

Arxiv

0+阅读 · 2023年6月1日

SQL-PaLM: Improved Large Language ModelAdaptation for Text-to-SQL

Arxiv

0+阅读 · 2023年5月26日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

相关基金

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

基于射频干涉的无线传感器网络目标节点定位与跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

用于GEM探测器的高集成度专用集成电路研制

国家自然科学基金

2+阅读 · 2013年12月31日

基于静息态和任务态的脑网络连接性fMRI研究运动想象训练促进皮层下脑卒中患者功能恢复的作用机制

国家自然科学基金

0+阅读 · 2013年12月31日

嵌入式多核环境中分区操作系统关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多尺度边缘感知的图像平滑和分层编辑研究

国家自然科学基金

0+阅读 · 2012年12月31日

压缩采样框架下的自适应稀疏信号感知与重建

国家自然科学基金

0+阅读 · 2009年12月31日

基于ISVM及VR的脑-机交互适应性研究

国家自然科学基金

0+阅读 · 2009年12月31日

异步低功耗LDPC解码器设计

国家自然科学基金

0+阅读 · 2009年12月31日

超宽带嵌入式变比特率音频编码算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员