Diffusion models have demonstrated high-quality performance in conditional text-to-image generation, particularly with structural cues such as edges, layouts, and depth. However, lighting conditions have received limited attention and remain difficult to control within the generative process. Existing methods handle lighting through a two-stage pipeline that relights images after generation, which is inefficient. Moreover, they rely on fine-tuning with large datasets and heavy computation, limiting their adaptability to new models and tasks. To address this, we propose a novel Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation (LGTM), which manipulates the initial latent noise of the diffusion process to guide image generation with text prompts and user-specified light directions. Through a channel-wise analysis of the latent space, we find that selectively manipulating latent channels enables fine-grained lighting control without fine-tuning or modifying the pre-trained model. Extensive experiments show that our method surpasses prompt-based baselines in lighting consistency, while preserving image quality and text alignment. This approach introduces new possibilities for dynamic, user-guided light control. Furthermore, it integrates seamlessly with models like ControlNet, demonstrating adaptability across diverse scenarios.


翻译:扩散模型在条件文本到图像生成中展现了高质量性能,特别是在利用边缘、布局和深度等结构线索时。然而,光照条件在生成过程中受到的关注有限且难以控制。现有方法通过两阶段流水线处理光照,即在生成后对图像进行重光照,但这效率低下。此外,这些方法依赖大规模数据集的微调和高计算开销,限制了其对新模型和任务的适应性。为解决此问题,我们提出一种新颖的无训练光引导文本到图像扩散模型(LGTM),通过操控扩散过程的初始潜在噪声,利用文本提示和用户指定的光照方向引导图像生成。通过对潜在空间进行通道级分析,我们发现选择性操控潜在通道能够在不微调或修改预训练模型的前提下实现精细的光照控制。大量实验表明,我们的方法在光照一致性上超越基于提示的基线方法,同时保持图像质量和文本对齐。该方法为动态、用户引导的光照控制开辟了新可能性。此外,其可无缝集成ControlNet等模型,展现了跨场景的适应性。

0
下载
关闭预览

相关内容

面向低光照图像增强的扩散模型
专知会员服务
16+阅读 · 2025年10月11日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
【简明书】扩散模型在图像和视觉领域的教程,51页pdf
专知会员服务
58+阅读 · 2024年3月29日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
learn to see in the dark-低照度图像增强算法
计算机视觉life
16+阅读 · 2019年1月14日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
面向低光照图像增强的扩散模型
专知会员服务
16+阅读 · 2025年10月11日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
【简明书】扩散模型在图像和视觉领域的教程,51页pdf
专知会员服务
58+阅读 · 2024年3月29日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员