Dynamic Frequency Modulation for Controllable Text-driven Image Generation - 专知论文

会员服务 ·

0

结构 · 调制 · 频率调制 · 可控 · 文本驱动 ·

Dynamic Frequency Modulation for Controllable Text-driven Image Generation

翻译：动态频率调制用于可控文本驱动图像生成

Tiandong Shi,Ling Zhao,Ji Qi,Jiayi Ma,Chengli Peng

The success of text-guided diffusion models has established a new image generation paradigm driven by the iterative refinement of text prompts. However, modifying the original text prompt to achieve the expected semantic adjustments often results in unintended global structure changes that disrupt user intent. Existing methods rely on empirical feature map selection for intervention, whose performance heavily depends on appropriate selection, leading to suboptimal stability. This paper tries to solve the aforementioned problem from a frequency perspective and analyzes the impact of the frequency spectrum of noisy latent variables on the hierarchical emergence of the structure framework and fine-grained textures during the generation process. We find that lower-frequency components are primarily responsible for establishing the structure framework in the early generation stage. Their influence diminishes over time, giving way to higher-frequency components that synthesize fine-grained textures. In light of this, we propose a training-free frequency modulation method utilizing a frequency-dependent weighting function with dynamic decay. This method maintains the structure framework consistency while permitting targeted semantic modifications. By directly manipulating the noisy latent variable, the proposed method avoids the empirical selection of internal feature maps. Extensive experiments demonstrate that the proposed method significantly outperforms current state-of-the-art methods, achieving an effective balance between preserving structure and enabling semantic updates.

翻译：文本引导扩散模型通过迭代优化文本提示建立了一种新的图像生成范式。然而，修改原始文本提示以实现预期语义调整时，常导致非预期的全局结构变化，从而破坏用户意图。现有方法依赖经验性特征图选择进行干预，其性能高度依赖于适当的选择，导致稳定性欠佳。本文尝试从频率视角解决上述问题，分析了生成过程中含噪隐变量的频谱对结构框架层级化涌现与细粒度纹理生成的影响。我们发现，低频分量主要在生成早期阶段负责建立结构框架，其影响力随时间递减，为合成细粒度纹理的高频分量让路。基于此，我们提出一种无需训练的频域调制方法，采用具有动态衰减特性的频率相关加权函数。该方法在保持结构框架一致性的同时，允许进行针对性语义修改。通过直接操作含噪隐变量，所提方法避免了内部特征图的经验性选择。大量实验表明，所提方法显著优于当前最先进方法，在保持结构与实现语义更新之间取得了有效平衡。

0

相关内容

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

专知会员服务

19+阅读 · 2023年9月30日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

43+阅读 · 2023年3月16日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Diverse Text-to-Image Generation via Contrastive Noise Optimization

Arxiv

0+阅读 · 3月16日

ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models

Arxiv

0+阅读 · 2月13日

Localized Control in Diffusion Models via Latent Vector Prediction

Arxiv

0+阅读 · 2月11日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

Arxiv

0+阅读 · 2月9日

Visual Autoregressive Modeling for Instruction-Guided Image Editing

Arxiv

0+阅读 · 2月6日

Adaptive Prompt Elicitation for Text-to-Image Generation

Arxiv

0+阅读 · 2月4日

Continuous Control of Editing Models via Adaptive-Origin Guidance

Arxiv

0+阅读 · 2月3日

Leveraging Latent Vector Prediction for Localized Control in Image Generation via Diffusion Models

Arxiv

0+阅读 · 2月2日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

VIP会员

文章信息

相关主题

最新内容

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

3+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

4+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

4+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

5+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

11+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

9+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

12+阅读 · 7月26日

相关VIP内容

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

专知会员服务

19+阅读 · 2023年9月30日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

43+阅读 · 2023年3月16日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《异构人类团队的协作决策过程混合建模研究》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

面向国防作战的最佳自主与蜂群无人机技术

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

相关资讯

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

相关论文

Diverse Text-to-Image Generation via Contrastive Noise Optimization

Arxiv

0+阅读 · 3月16日

ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models

Arxiv

0+阅读 · 2月13日

Localized Control in Diffusion Models via Latent Vector Prediction

Arxiv

0+阅读 · 2月11日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

Arxiv

0+阅读 · 2月9日

Visual Autoregressive Modeling for Instruction-Guided Image Editing

Arxiv

0+阅读 · 2月6日

Adaptive Prompt Elicitation for Text-to-Image Generation

Arxiv

0+阅读 · 2月4日

Continuous Control of Editing Models via Adaptive-Origin Guidance

Arxiv

0+阅读 · 2月3日

Leveraging Latent Vector Prediction for Localized Control in Image Generation via Diffusion Models

Arxiv

0+阅读 · 2月2日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

相关基金

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员