Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl


翻译:Classifier-Free Guidance (CFG) 已成为增强基于流的扩散模型语义对齐的核心方法。本文中,我们探索了一个名为 CFG-Ctrl 的统一框架,该框架将 CFG 重新解释为应用于一阶连续时间生成流的控制,利用条件-无条件差异作为误差信号来调整速度场。从这个视角出发,我们将原始 CFG 总结为具有固定增益的比例控制器(P-control),而典型的后续变体则在此基础上发展出扩展的控制律设计。然而,现有方法主要依赖于线性控制,这本质上会导致不稳定性、超调以及在较大引导尺度下语义保真度的下降。为解决此问题,我们引入了滑模控制 CFG (SMC-CFG),它强制生成流向一个快速收敛的滑模流形。具体而言,我们在语义预测误差上定义了一个指数滑模面,并引入一个切换控制项以建立非线性反馈引导的校正。此外,我们提供了李雅普诺夫稳定性分析,从理论上支持有限时间收敛。在包括 Stable Diffusion 3.5、Flux 和 Qwen-Image 在内的文本到图像生成模型上的实验表明,SMC-CFG 在语义对齐方面优于标准 CFG,并在广泛的引导尺度范围内增强了鲁棒性。项目页面:https://hanyang-21.github.io/CFG-Ctrl

0
下载
关闭预览

相关内容

【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
29+阅读 · 2023年4月28日
CFGAN:基于生成对抗网络的协同过滤框架
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员