Unsupervised deraining has attracted attention for its ability to learn the real-world distribution of rain without paired supervision. However, the lack of strong constraints makes it difficult for the network to converge, especially with the complex diversity of rain degradation. A key motivation is that high-quality deraining results occasionally emerge during training, which can be leveraged to guide the optimization process. To overcome these challenges, we introduce RGSUD (Reward-Guided Self-Reinforcement Unsupervised Image Deraining), comprising two key stages: reward recycling and self-reinforcement (SR) training. For the former stage, we propose an Image Quality Assessment (IQA)-based dynamic reward recycling mechanism that selects optimal derained outputs during training and continuously collects high-quality deraining images. In latter stage, we incorporate these rewards into the model's optimization process, constraining the optimization space and improving alignment between derained outputs and clean images. By leveraging IQA-based self-reinforced loss and dynamically updated rewards, we enhance the quality of synthesized pseudo-paired data and stabilize the optimization. Extensive experiments demonstrate that our method achieves SOTA performance across multiple datasets, including paired synthetic, paired real, and unpaired real images, outperforming existing unsupervised deraining approaches in both subjective and objective IQA metrics. Additionally, we show that the self-reinforcement strategy is adaptable to other unsupervised deraining methods and our deraining framework demonstrates strong generalization across existing supervised deraining networks.


翻译:无监督去雨因能学习真实世界的雨分布而无须配对监督而受到关注。然而,由于缺乏强约束,网络难以收敛,尤其是在雨退化具有复杂多样性的情况下。一个关键动机是:训练过程中偶尔会出现高质量去雨结果,这可用于指导优化过程。为应对这些挑战,我们提出RGSUD(奖励引导的自强化无监督图像去雨),包含两个关键阶段:奖励回收与自强化(SR)训练。前一阶段,我们提出基于图像质量评估(IQA)的动态奖励回收机制,在训练中选择最优去雨输出并持续收集高质量去雨图像。后一阶段,我们将这些奖励融入模型优化过程,约束优化空间并提升去雨输出与干净图像的对齐程度。通过利用基于IQA的自强化损失与动态更新的奖励,我们增强了合成伪配对数据的质量并稳定了优化过程。大量实验表明,我们的方法在多个数据集(包括配对合成、配对真实及无配对真实图像)上均取得SOTA性能,在主观与客观IQA指标上超越现有无监督去雨方法。此外,我们证明自强化策略可适配其他无监督去雨方法,且我们的去雨框架在现有有监督去雨网络上展现出强泛化能力。

0
下载
关闭预览

相关内容

【ICML2025】用于可扩展持续强化学习的自组合策略
专知会员服务
12+阅读 · 2025年7月3日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
【干货】Python无监督学习的4大聚类算法
新智元
14+阅读 · 2018年5月26日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月28日
Arxiv
0+阅读 · 4月3日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
2+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员