Improving Classifier-Free Guidance of Flow Matching via Manifold Projection - 专知论文

会员服务 ·

0

流形 · 梯度 · 投影 · 分类器 · 流匹配 ·

Improving Classifier-Free Guidance of Flow Matching via Manifold Projection

翻译：通过流形投影改进流匹配的无分类器引导

Jian-Feng Cai,Haixia Liu,Zhengyi Su,Chao Wang

from arxiv, 24 pages, 14 figures

Classifier-free guidance (CFG) is a widely used technique for controllable generation in diffusion and flow-based models. Despite its empirical success, CFG relies on a heuristic linear extrapolation that is often sensitive to the guidance scale. In this work, we provide a principled interpretation of CFG through the lens of optimization. We demonstrate that the velocity field in flow matching corresponds to the gradient of a sequence of smoothed distance functions, which guides latent variables toward the scaled target image set. This perspective reveals that the standard CFG formulation is an approximation of this gradient, where the prediction gap, the discrepancy between conditional and unconditional outputs, governs guidance sensitivity. Leveraging this insight, we reformulate the CFG sampling as a homotopy optimization with a manifold constraint. This formulation necessitates a manifold projection step, which we implement via an incremental gradient descent scheme during sampling. To improve computational efficiency and stability, we further enhance this iterative process with Anderson Acceleration without requiring additional model evaluations. Our proposed methods are training-free and consistently refine generation fidelity, prompt alignment, and robustness to the guidance scale. We validate their effectiveness across diverse benchmarks, demonstrating significant improvements on large-scale models such as DiT-XL-2-256, Flux, and Stable Diffusion 3.5.

翻译：无分类器引导（CFG）是扩散模型和基于流的模型中广泛使用的可控生成技术。尽管其经验上取得了成功，CFG依赖于一种启发式的线性外推方法，该方法通常对引导尺度较为敏感。在本工作中，我们通过优化的视角为CFG提供了一个原理性的解释。我们证明流匹配中的速度场对应一系列平滑距离函数的梯度，该梯度引导隐变量朝向缩放后的目标图像集。这一视角揭示了标准CFG公式是该梯度的近似，其中条件输出与无条件输出之间的预测差距主导了引导的敏感性。基于这一洞见，我们将CFG采样重新表述为带有流形约束的同伦优化问题。这一表述需要引入流形投影步骤，我们通过在采样过程中采用增量梯度下降方案来实现该步骤。为了提升计算效率和稳定性，我们进一步利用安德森加速法增强这一迭代过程，且无需额外的模型评估。我们提出的方法无需训练，并能持续提升生成保真度、提示对齐能力以及对引导尺度的鲁棒性。我们在多个基准测试中验证了其有效性，在DiT-XL-2-256、Flux和Stable Diffusion 3.5等大规模模型上均展示了显著的改进。

0

相关内容

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

流匹配在生物学与生命科学中的应用综述

流匹配在生物学与生命科学中的应用综述

专知会员服务

16+阅读 · 2025年7月25日

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

专知会员服务

12+阅读 · 2025年6月19日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

17+阅读 · 2025年4月30日

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

专知会员服务

26+阅读 · 2022年4月10日

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

专知会员服务

17+阅读 · 2022年2月9日

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

专知会员服务

18+阅读 · 2021年11月8日

【WWW2021】充分利用层级结构进行自监督分类法扩展

【WWW2021】充分利用层级结构进行自监督分类法扩展

专知会员服务

16+阅读 · 2021年2月7日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class DA

专知会员服务

28+阅读 · 2020年3月2日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

Normalizing Flows入门(上)

Normalizing Flows入门(上)

AINLP

10+阅读 · 2020年8月1日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于投影动态系统理论的认知无线网络实时功率分配问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压电效应和液晶引流效应微流体组合驱动控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于导频提取技术的下一代无线网络性能优化研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种无直流储能元件的电能传输控制新技术：相位和幅值可控交-交变换器

国家自然科学基金

0+阅读 · 2014年12月31日

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Arxiv

0+阅读 · 2月10日

Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

Arxiv

0+阅读 · 2月10日

Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching

Arxiv

0+阅读 · 2月5日

Steering Large Reasoning Models towards Concise Reasoning via Flow Matching

Arxiv

0+阅读 · 2月5日

MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance

Arxiv

0+阅读 · 2月4日

Continuous Control of Editing Models via Adaptive-Origin Guidance

Arxiv

0+阅读 · 2月3日

Unlocking the Duality between Flow and Field Matching

Arxiv

0+阅读 · 2月2日

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Arxiv

0+阅读 · 1月31日

Divergence-Free Diffusion Models for Incompressible Fluid Flows

Arxiv

0+阅读 · 1月27日

Flow Matching with Semidiscrete Couplings

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

4+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

3+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

3+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

6+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

5+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

5+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

18+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

9+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

10+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

14+阅读 · 5月29日

相关VIP内容

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

流匹配在生物学与生命科学中的应用综述

流匹配在生物学与生命科学中的应用综述

专知会员服务

16+阅读 · 2025年7月25日

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

专知会员服务

12+阅读 · 2025年6月19日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

17+阅读 · 2025年4月30日

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

牛津大学《多智能体影响图的均衡优化: 理论和实践》，Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

专知会员服务

26+阅读 · 2022年4月10日

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

专知会员服务

17+阅读 · 2022年2月9日

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

专知会员服务

18+阅读 · 2021年11月8日

【WWW2021】充分利用层级结构进行自监督分类法扩展

【WWW2021】充分利用层级结构进行自监督分类法扩展

专知会员服务

16+阅读 · 2021年2月7日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class DA

专知会员服务

28+阅读 · 2020年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

Normalizing Flows入门(上)

Normalizing Flows入门(上)

AINLP

10+阅读 · 2020年8月1日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Arxiv

0+阅读 · 2月10日

Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

Arxiv

0+阅读 · 2月10日

Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching

Arxiv

0+阅读 · 2月5日

Steering Large Reasoning Models towards Concise Reasoning via Flow Matching

Arxiv

0+阅读 · 2月5日

MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance

Arxiv

0+阅读 · 2月4日

Continuous Control of Editing Models via Adaptive-Origin Guidance

Arxiv

0+阅读 · 2月3日

Unlocking the Duality between Flow and Field Matching

Arxiv

0+阅读 · 2月2日

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Arxiv

0+阅读 · 1月31日

Divergence-Free Diffusion Models for Incompressible Fluid Flows

Arxiv

0+阅读 · 1月27日

Flow Matching with Semidiscrete Couplings

Arxiv

0+阅读 · 1月23日

相关基金

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于投影动态系统理论的认知无线网络实时功率分配问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压电效应和液晶引流效应微流体组合驱动控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于导频提取技术的下一代无线网络性能优化研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种无直流储能元件的电能传输控制新技术：相位和幅值可控交-交变换器

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员