Image restoration seeks to recover high-quality images from degraded inputs but becomes highly ill-posed under complex, mixed degradations. While unified all-in-one models are common, their performance declines as degradation complexity increases. Recent works adopt Chain-of-Thought (CoT) reasoning for multi-round restoration using specialized modules. However, this approach faces two key limitations: (i) increased computational cost due to multi-step processing, and (ii) weak modeling of interactions between degradations during stepwise inference. We introduce CoTIR, a universal image restoration framework that internalizes CoT reasoning within a single model. Concretely, we view image restoration as a specialized subtask of image editing, which implies that a large-scale pre-trained editing model provides a more favorable optimization starting point. Building on this, we fine-tune the model for restoration and further encode structured CoT-style reasoning into the learning objective via a differentiable formulation inspired by Lagrangian optimization, enabling holistic restoration without chaining specialized restorers. To facilitate training and evaluation, we further present CoTIR-Bench, a large-scale benchmark comprising 5.2 million samples with CoT-style reasoning traces. Extensive experiments on CoTIR-Bench and broad real composite degradation scenes show that CoTIR achieves stronger perceptual quality and more competitive fidelity than both all-in-one models and multi-round restoration methods. The source code is available at https://github.com/gy65896/CoTIR.


翻译:图像恢复旨在从退化输入中重建高质量图像,但在复杂混合退化场景下呈现高度病态性。尽管统一的通用模型较为常见,其性能会随退化复杂度增加而下降。近期研究采用思维链(Chain-of-Thought, CoT)推理,通过专用模块实现多轮恢复,但该方法面临两大局限:(i)多步骤处理增加计算开销,(ii)逐步推理过程中退化间交互建模薄弱。我们提出CoTIR——一种将CoT推理内化于单一模型中的通用图像恢复框架。具体而言,我们将图像恢复视为图像编辑的专用子任务,这意味着大规模预训练编辑模型能提供更优的优化起点。基于此,我们对模型进行恢复任务微调,并通过受拉格朗日优化启发的可微形式将结构化CoT式推理编码至学习目标,从而无需串联专用恢复器即可实现全局恢复。为便于训练与评估,我们进一步构建CoTIR-Bench——涵盖520万样本及CoT推理轨迹的大规模基准数据集。在CoTIR-Bench及广泛真实复合退化场景上的大量实验表明,CoTIR在感知质量和保真度方面均优于通用模型与多轮恢复方法。源代码见https://github.com/gy65896/CoTIR。

0
下载
关闭预览

相关内容

【NTU博士论文】基于深度生成模型的图像恢复与表示
专知会员服务
19+阅读 · 2025年2月23日
【ETHZ博士论文】朝向更好的图像和视频恢复,159页pdf
专知会员服务
19+阅读 · 2023年10月16日
中科大等最新《基于扩散模型的图像恢复和增强》综述
专知会员服务
37+阅读 · 2023年8月22日
基于深度神经网络的图像缺损修复方法综述
专知会员服务
26+阅读 · 2021年12月18日
专知会员服务
64+阅读 · 2021年3月9日
专知会员服务
46+阅读 · 2020年12月4日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月27日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员