Understanding visual degradations is a critical yet challenging problem in computer vision. While recent Vision-Language Models (VLMs) excel at qualitative description, they often fall short in understanding the parametric physics underlying image degradations. In this work, we redefine degradation understanding as a hierarchical structured prediction task, necessitating the concurrent estimation of degradation types, parameter keys, and their continuous physical values. Although these sub-tasks operate in disparate spaces, we prove that they can be unified under one autoregressive next-token prediction paradigm, whose error is bounded by the value-space quantization grid. Building on this insight, we introduce DU-VLM, a multimodal chain-of-thought model trained with supervised fine-tuning and reinforcement learning using structured rewards. Furthermore, we show that DU-VLM can serve as a zero-shot controller for pre-trained diffusion models, enabling high-fidelity image restoration without fine-tuning the generative backbone. We also introduce \textbf{DU-110k}, a large-scale dataset comprising 110,000 clean-degraded pairs with grounded physical annotations. Extensive experiments demonstrate that our approach significantly outperforms generalist baselines in both accuracy and robustness, exhibiting generalization to unseen distributions.


翻译:理解视觉退化是计算机视觉领域中一个至关重要且极具挑战性的问题。尽管当前的视觉语言模型在定性描述方面表现出色,但在理解图像退化背后的参数化物理原理方面往往存在不足。在本研究中,我们将退化理解重新定义为一种层次化结构预测任务,要求同时估计退化类型、参数键及其连续的物理值。尽管这些子任务在不同的空间中运行,但我们证明了它们可以在一个自回归的下一个词元预测范式下统一起来,其误差受值空间量化网格的约束。基于这一见解,我们提出了DU-VLM,这是一个多模态思维链模型,通过监督微调和采用结构化奖励的强化学习进行训练。此外,我们展示了DU-VLM可以作为预训练扩散模型的零样本控制器,无需对生成主干网络进行微调即可实现高保真度的图像恢复。我们还引入了\textbf{DU-110k},这是一个包含110,000个干净-退化图像对的大规模数据集,每个图像对都带有基于物理原理的标注。大量实验表明,我们的方法在准确性和鲁棒性上均显著优于通用基线模型,并对未见过的数据分布展现出良好的泛化能力。

0
下载
关闭预览

相关内容

迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【博士论文】解释大型视觉模型方面的进展
专知会员服务
27+阅读 · 2025年2月7日
专知会员服务
39+阅读 · 2021年3月3日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
【综述】计算机视觉简介:历史、现状和发展趋势【可下载】
机器学习算法与Python学习
15+阅读 · 2018年9月21日
计算机视觉简介:历史、现状和发展趋势
机器学习研究会
22+阅读 · 2017年11月21日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员