Image colorization has been attracting the research interests of the community for decades. However, existing methods still struggle to provide satisfactory colorized results given grayscale images due to a lack of human-like global understanding of colors. Recently, large-scale Text-to-Image (T2I) models have been exploited to transfer the semantic information from the text prompts to the image domain, where text provides a global control for semantic objects in the image. In this work, we introduce a colorization model piggybacking on the existing powerful T2I diffusion model. Our key idea is to exploit the color prior knowledge in the pre-trained T2I diffusion model for realistic and diverse colorization. A diffusion guider is designed to incorporate the pre-trained weights of the latent diffusion model to output a latent color prior that conforms to the visual semantics of the grayscale input. A lightness-aware VQVAE will then generate the colorized result with pixel-perfect alignment to the given grayscale image. Our model can also achieve conditional colorization with additional inputs (e.g. user hints and texts). Extensive experiments show that our method achieves state-of-the-art performance in terms of perceptual quality.


翻译:图像彩色化数十年来一直吸引着学术界的关注。然而,由于缺乏类人化的全局色彩理解能力,现有方法在处理灰度图像时仍难以提供令人满意的彩色化结果。近年来,大规模文生图(Text-to-Image, T2I)模型被用于将文本提示中的语义信息迁移至图像域,其中文本为图像中的语义物体提供了全局控制。本工作提出了一种搭载于现有强大T2I扩散模型的彩色化模型。核心思想是利用预训练T2I扩散模型中的色彩先验知识,实现逼真且多样化的彩色化。我们设计了一个扩散引导器,通过整合潜在扩散模型的预训练权重,输出与灰度输入视觉语义一致的潜在色彩先验。随后,一种亮度感知型VQVAE将生成与给定灰度图像逐像素精确对齐的彩色化结果。该模型还可通过额外输入(如用户提示和文本)实现条件式彩色化。大量实验表明,本方法在感知质量上达到了最先进水平。

0
下载
关闭预览

相关内容

【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
25+阅读 · 2023年4月3日
KDD 2022 | GraphMAE:自监督掩码图自编码器
专知会员服务
20+阅读 · 2022年7月14日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
SRGAN论文笔记
统计学习与视觉计算组
110+阅读 · 2018年4月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月5日
Arxiv
16+阅读 · 2021年3月2日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
25+阅读 · 2023年4月3日
KDD 2022 | GraphMAE:自监督掩码图自编码器
专知会员服务
20+阅读 · 2022年7月14日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
SRGAN论文笔记
统计学习与视觉计算组
110+阅读 · 2018年4月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员