With the introduction of the transformer architecture in computer vision, increasing model scale has been demonstrated as a clear path to achieving performance and robustness gains. However, with model parameter counts reaching the billions, classical finetuning approaches are becoming increasingly limiting and even unfeasible when models become hosted as inference APIs, as in NLP. To this end, visual prompt learning, whereby a model is adapted by learning additional inputs, has emerged as a potential solution for adapting frozen and cloud-hosted models: During inference, this neither requires access to the internals of models' forward pass function, nor requires any post-processing. In this work, we propose the Prompt Generation Network (PGN) that generates high performing, input-dependent prompts by sampling from an end-to-end learned library of tokens. We further introduce the "prompt inversion" trick, with which PGNs can be efficiently trained in a latent space but deployed as strictly input-only prompts for inference. We show the PGN is effective in adapting pre-trained models to various new datasets: It surpasses previous methods by a large margin on 12/12 datasets and even outperforms full-finetuning on 5/12, while requiring 100x less parameters.


翻译:随着Transformer架构在计算机视觉领域的引入,增大模型规模已被证明是提升性能与鲁棒性的明确路径。然而,当模型参数量达到数十亿级别时,传统的微调方法逐渐显现局限性,甚至在模型以推理API形式托管(如自然语言处理领域)时变得不可行。为此,视觉提示学习——通过学习额外输入来适配模型——已成为适配冻结或云端托管模型的潜在解决方案:在推理过程中,该方法既无需访问模型前向传播函数内部,也无需任何后处理。本文提出提示生成网络(Prompt Generation Network, PGN),通过从端到端学习的词元库中采样,生成高性能且依赖输入的提示。我们进一步引入“提示反转”技巧,使PGN能够在潜在空间中高效训练,但推理时仅以纯输入提示的形式部署。实验表明,PGN能有效将预训练模型适配到多种新数据集:在12/12个数据集上大幅超越先前方法,甚至在5/12个数据集上超越全参数微调,同时所需参数量减少100倍。

0
下载
关闭预览

相关内容

【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
32+阅读 · 2022年3月12日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
15+阅读 · 2020年10月27日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
11+阅读 · 2018年3月23日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
32+阅读 · 2022年3月12日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
15+阅读 · 2020年10月27日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员