Generative real-world image super-resolution (Real-ISR) can synthesize visually convincing details from severely degraded low-resolution (LR) inputs, yet its stochastic sampling makes a critical failure mode hard to avoid: outputs may look sharp but be unfaithful to the LR evidence (semantic and structural hallucination), while such LR-anchored faithfulness is difficult to assess without HR ground truth. Preference-based reinforcement learning (RL) is a natural fit because each LR input yields a rollout group of candidates to compare. However, effective alignment in Real-ISR is hindered by (i) the lack of a degradation-robust LR-referenced faithfulness signal, and (ii) a rollout-group optimization bottleneck where naive multi-reward scalarization followed by normalization compresses objective-wise contrasts, causing advantage collapse and weakening the reward-weighted updates in DiffusionNFT-style forward fine-tuning. Moreover, (iii) limited coverage of real degradations restricts rollout diversity and preference signal quality. We propose LucidNFT, a multi-reward RL framework for flow-matching Real-ISR. LucidNFT introduces LucidConsistency, a degradation-robust semantic evaluator that makes LR-anchored faithfulness measurable and optimizable; a decoupled advantage normalization strategy that preserves objective-wise contrasts within each LR-conditioned rollout group before fusion, preventing advantage collapse; and LucidLR, a large-scale collection of real-world degraded images to support robust RL fine-tuning. Experiments show that LucidNFT consistently improves strong flow-based Real-ISR baselines, achieving better perceptual-faithfulness trade-offs with stable optimization dynamics across diverse real-world scenarios.


翻译:生成式真实世界图像超分辨率(Real-ISR)能从严重退化的低分辨率(LR)输入中合成视觉上令人信服的细节,但其随机采样特性导致一种关键失效模式难以避免:输出图像可能清晰却与LR证据不符(语义与结构幻觉),而缺乏高分辨率(HR)真值使得这种基于LR的保真度评估十分困难。基于偏好的强化学习(RL)天然适用于此场景,因为每个LR输入均可生成一组候选采样结果用于比较。然而,Real-ISR中的有效对齐面临三个障碍:(i)缺乏对退化具有鲁棒性的LR参考保真度信号;(ii)采样组优化瓶颈——简单采用多奖励标量化后归一化的方法会压缩目标间对比度,导致优势坍塌,削弱DiffusionNFT式前向微调中基于奖励加权的更新效果;以及(iii)真实退化的覆盖范围有限,限制了采样多样性与偏好信号质量。为此,我们提出LucidNFT——面向流匹配Real-ISR的多奖励强化学习框架。该框架包含三大贡献:LucidConsistency——一种对退化鲁棒的语义评估器,使基于LR锚定的保真度可量化、可优化;解耦优势归一化策略——在融合前保留每个LR条件采样组内的目标间对比度,避免优势坍塌;以及LucidLR——大规模真实退化图像数据集,支撑鲁棒的RL微调。实验表明,LucidNFT能持续改进基于流的Strong Real-ISR基线方法,在各类真实场景中实现更优的感知-保真度平衡,并保持稳定的优化动力学特性。

0
下载
关闭预览

相关内容

深度学习视频超分辨率综述
专知会员服务
14+阅读 · 2025年6月5日
遥感图像超分辨率技术进展:综合综述
专知会员服务
12+阅读 · 2025年5月31日
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
计算机视觉life
16+阅读 · 2019年4月25日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员