Recent text-to-image diffusion models have achieved remarkable visual fidelity but often struggle with semantic alignment to complex prompts. We introduce CritiFusion, a novel inference-time framework that integrates a multimodal semantic critique mechanism with frequency-domain refinement to improve text-to-image consistency and detail. The proposed CritiCore module leverages a vision-language model and multiple large language models to enrich the prompt context and produce high-level semantic feedback, guiding the diffusion process to better align generated content with the prompt's intent. Additionally, SpecFusion merges intermediate generation states in the spectral domain, injecting coarse structural information while preserving high-frequency details. No additional model training is required. CritiFusion serves as a plug-in refinement stage compatible with existing diffusion backbones. Experiments on standard benchmarks show that our method notably improves human-aligned metrics of text-to-image correspondence and visual quality. CritiFusion consistently boosts performance on human preference scores and aesthetic evaluations, achieving results on par with state-of-the-art reward optimization approaches. Qualitative results further demonstrate superior detail, realism, and prompt fidelity, indicating the effectiveness of our semantic critique and spectral alignment strategy.


翻译:近期文本到图像扩散模型在视觉保真度方面取得了显著进展,但在复杂提示词的语义对齐方面仍存在困难。本文提出CritiFusion,一种新颖的推理时框架,通过整合多模态语义批判机制与频域优化来提升文本到图像的一致性与细节表现。所提出的CritiCore模块利用视觉语言模型与多个大语言模型来丰富提示语境并生成高层语义反馈,从而引导扩散过程使生成内容更好地符合提示意图。此外,SpecFusion在频谱域中融合中间生成状态,在注入粗粒度结构信息的同时保持高频细节。该方法无需额外模型训练,可作为即插即用的优化阶段兼容现有扩散模型主干。在标准基准测试上的实验表明,本方法显著提升了文本到图像对应度的人类对齐指标与视觉质量。CritiFusion在人类偏好评分与美学评估中持续提升性能,达到与当前最优奖励优化方法相当的结果。定性结果进一步展示了其在细节表现、真实感与提示忠实度方面的优越性,验证了本文语义批判与频谱对齐策略的有效性。

0
下载
关闭预览

相关内容

【NTU博士论文】反事实推理在多模态对话生成中的应用
专知会员服务
16+阅读 · 2025年10月22日
【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
11+阅读 · 2025年5月9日
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
生成式AI时代的深伪媒体生成与检测:综述与展望
专知会员服务
30+阅读 · 2024年12月2日
视频文本预训练简述
专知会员服务
22+阅读 · 2022年7月24日
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
14+阅读 · 2019年7月12日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员