With the advent of Generative AI, Single Image Super-Resolution (SISR) quality has seen substantial improvement, as the strong priors learned by Text-2-Image Diffusion (T2IDiff) Foundation Models (FM) can bridge the gap between High-Resolution (HR) and Low-Resolution (LR) images. However, flagship smartphone cameras have been slow to adopt generative models because strong generation can lead to undesirable hallucinations. For substantially degraded LR images, as seen in academia, strong generation is required and hallucinations are more tolerable because of the wide gap between LR and HR images. In contrast, in consumer photography, the LR image has substantially higher fidelity, requiring only minimal hallucination-free generation. We hypothesize that generation in SISR is controlled by the stringency and richness of the FM's conditioning feature. First, text features are high level features, which often cannot describe subtle textures in an image. Additionally, Smartphone LR images are at least $12MP$, whereas SISR networks built on T2IDiff FM are designed to perform inference on much smaller images ($<1MP$). As a result, SISR inference has to be performed on small patches, which often cannot be accurately described by text feature. To address these shortcomings, we introduce an SISR network built on a FM with lower-level feature conditioning, specifically DINOv2 features, which we call a Feature-to-Image Diffusion (F2IDiff) Foundation Model (FM). Lower level features provide stricter conditioning while being rich descriptors of even small patches.


翻译:随着生成式人工智能的出现,单图像超分辨率(SISR)的质量得到了显著提升,因为文本到图像扩散(T2IDiff)基础模型(FM)学习到的强大先验能够弥合高分辨率(HR)与低分辨率(LR)图像之间的差距。然而,旗舰智能手机相机在采用生成模型方面进展缓慢,因为强大的生成能力可能导致不理想的幻觉效应。对于学术界常见的严重退化LR图像,由于LR与HR图像之间存在巨大差距,需要强大的生成能力,且幻觉效应更具容忍度。相比之下,在消费级摄影中,LR图像保真度显著更高,仅需最小化、无幻觉的生成即可。我们假设,SISR中的生成过程受FM条件特征的严格性与丰富度控制。首先,文本特征属于高层特征,通常无法描述图像中的细微纹理。此外,智能手机LR图像至少为$12MP$,而基于T2IDiff FM构建的SISR网络设计用于在更小图像($<1MP$)上进行推理。因此,SISR推理必须在小型图像块上进行,而这些小块往往无法被文本特征准确描述。为克服这些不足,我们提出了一种基于FM的SISR网络,该网络采用更低层级的特征进行条件约束,具体为DINOv2特征,我们称之为特征到图像扩散(F2IDiff)基础模型(FM)。较低层级的特征在提供更严格条件约束的同时,即使对小型图像块也能成为丰富的描述符。

0
下载
关闭预览

相关内容

FM 2019是正式方法欧洲(FME)组织的系列国际研讨会中的第23次,该协会是一个独立的协会,旨在促进软件开发正式方法的使用和研究。官网链接:http://formalmethods2019.inesctec.pt/?page_id=565
【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
深度学习视频超分辨率综述
专知会员服务
14+阅读 · 2025年6月5日
遥感图像超分辨率技术进展:综合综述
专知会员服务
12+阅读 · 2025年5月31日
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
专知会员服务
41+阅读 · 2021年9月30日
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
计算机视觉life
16+阅读 · 2019年4月25日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
相关VIP内容
【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
深度学习视频超分辨率综述
专知会员服务
14+阅读 · 2025年6月5日
遥感图像超分辨率技术进展:综合综述
专知会员服务
12+阅读 · 2025年5月31日
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
专知会员服务
41+阅读 · 2021年9月30日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员