Image restoration (IR) aims to recover images degraded by unknown mixtures while preserving semanticsconditions under which discriminative restorers and UNet-based diffusion priors often oversmooth, hallucinate, or drift. We present LucidFlux, a caption-free IR framework that adapts a large diffusion transformer (Flux.1) without image captions. Our LucidFlux introduces a lightweight dual-branch conditioner that injects signals from the degraded input and a lightly restored proxy to respectively anchor geometry and suppress artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed to route these cues across the backbones hierarchy, in order to yield coarse-to-fine and context-aware updates that protect the global structure while recovering texture. After that, to avoid the latency and instability of text prompts or Vision-Language Model (VLM) captions, we enforce caption-free semantic alignment via SigLIP features extracted from the proxy. A scalable curation pipeline further filters large-scale data for structure-rich supervision. Across synthetic and in-the-wild benchmarks, our LucidFlux consistently outperforms strong open-source and commercial baselines, and ablation studies verify the necessity of each component. LucidFlux shows that, for large DiTs, when, where, and what to condition onrather than adding parameters or relying on text promptsis the governing lever for robust and caption-free image restoration in the wild.


翻译:图像复原旨在从未知混合退化中恢复图像,同时保持语义条件——在此条件下,判别式复原器与基于UNet的扩散先验常出现过度平滑、幻觉化或漂移。我们提出LucidFlux,一种无需图像描述的无描述复原框架,其适配大规模扩散Transformer(Flux.1)。该框架引入轻量级双分支调节器,分别从退化输入与轻度复原代理注入信号,以锚定几何结构并抑制伪影。进而设计时间步与层级自适应调制方案,将这些线索沿主干网络层级路由,生成由粗到细且上下文感知的更新,在保护全局结构的同时恢复纹理。为避免文本提示或视觉语言模型描述的延迟与不稳定性,我们通过从代理中提取的SigLIP特征强制执行无描述语义对齐。可扩展的策展流水线进一步过滤大规模数据以获得结构丰富的监督。在合成与真实场景基准测试中,LucidFlux持续优于强开源与商业基线,消融实验验证了各组件的必要性。LucidFlux表明,对于大规模DiT,调节的时机、位置与内容(而非增加参数或依赖文本提示)才是实现鲁棒且无描述野外图像复原的核心杠杆。

0
下载
关闭预览

相关内容

图像复原(image restoration)即利用退化过程的先验知识,去恢复已被退化图像的本来面目。图像复原技术主要是针对成像过程中的“退化”而提出来的,而成像过程中的“退化”现象主要指成像系统受到各种因素的影响,诸如成像系统的散焦、设备与物体间存在相对运动或者是器材的固有缺陷等,导致图像的质量不能够达到理想要求。
面向低光照图像增强的扩散模型
专知会员服务
16+阅读 · 2025年10月11日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
【ETHZ博士论文】朝向更好的图像和视频恢复,159页pdf
专知会员服务
19+阅读 · 2023年10月16日
中科大等最新《基于扩散模型的图像恢复和增强》综述
专知会员服务
37+阅读 · 2023年8月22日
Graph Transformer近期进展
专知会员服务
65+阅读 · 2023年1月5日
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
计算机视觉life
16+阅读 · 2019年4月25日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员