Diffusion-based generative models have achieved remarkable success in image generation. Their guidance formulation allows an external model to plug-and-play control the generation process for various tasks without finetuning the diffusion model. However, the direct use of publicly available off-the-shelf models for guidance fails due to their poor performance on noisy inputs. For that, the existing practice is to fine-tune the guidance models with labeled data corrupted with noises. In this paper, we argue that this practice has limitations in two aspects: (1) performing on inputs with extremely various noises is too hard for a single guidance model; (2) collecting labeled datasets hinders scaling up for various tasks. To tackle the limitations, we propose a novel strategy that leverages multiple experts where each expert is specialized in a particular noise range and guides the reverse process of the diffusion at its corresponding timesteps. However, as it is infeasible to manage multiple networks and utilize labeled data, we present a practical guidance framework termed Practical Plug-And-Play (PPAP), which leverages parameter-efficient fine-tuning and data-free knowledge transfer. We exhaustively conduct ImageNet class conditional generation experiments to show that our method can successfully guide diffusion with small trainable parameters and no labeled data. Finally, we show that image classifiers, depth estimators, and semantic segmentation models can guide publicly available GLIDE through our framework in a plug-and-play manner. Our code is available at https://github.com/riiid/PPAP.


翻译:基于扩散的生成模型在图像生成领域取得了显著成功。其引导公式允许外部模型以即插即用的方式控制生成过程,从而无需微调扩散模型即可完成各类任务。然而,直接使用公开的现成模型进行引导会因这些模型在含噪输入上的表现不佳而失败。为此,现有做法是使用噪声污染后的带标签数据对引导模型进行微调。本文指出,这种做法存在两方面局限性:(1)单一引导模型难以处理包含极多噪声类型的输入;(2)收集带标签数据集会阻碍模型向不同任务扩展的规模。针对这些局限,我们提出一种新策略:利用多个专家模型,每个专家专门处理特定噪声范围,并在其对应时间步引导扩散模型的逆向过程。然而,由于管理多个网络并使用带标签数据存在困难,我们提出一种名为实用即插即用(PPAP)的实用引导框架,该框架结合了参数高效微调与无数据知识迁移。我们在ImageNet类别条件生成实验中进行了详尽验证,证明本方法能以少量可训练参数,在无需任何带标签数据的情况下成功引导扩散过程。最后,我们展示了图像分类器、深度估计模型和语义分割模型可通过本框架以即插即用方式引导公开的GLIDE模型。我们的代码开源在 https://github.com/riiid/PPAP。

0
下载
关闭预览

相关内容

【ICML2023】通过离散扩散建模实现高效和度引导的图生成
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
1+阅读 · 2022年6月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
30+阅读 · 2022年9月10日
Arxiv
14+阅读 · 2022年8月25日
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
7+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
7+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
8+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
5+阅读 · 6月4日
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
20+阅读 · 6月2日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员