Well-designed prompts have demonstrated the potential to guide text-to-image models in generating amazing images. Although existing prompt engineering methods can provide high-level guidance, it is challenging for novice users to achieve the desired results by manually entering prompts due to a discrepancy between novice-user-input prompts and the model-preferred prompts. To bridge the distribution gap between user input behavior and model training datasets, we first construct a novel Coarse-Fine Granularity Prompts dataset (CFP) and propose a novel User-Friendly Fine-Grained Text Generation framework (UF-FGTG) for automated prompt optimization. For CFP, we construct a novel dataset for text-to-image tasks that combines coarse and fine-grained prompts to facilitate the development of automated prompt generation methods. For UF-FGTG, we propose a novel framework that automatically translates user-input prompts into model-preferred prompts. Specifically, we propose a prompt refiner that continually rewrites prompts to empower users to select results that align with their unique needs. Meanwhile, we integrate image-related loss functions from the text-to-image model into the training process of text generation to generate model-preferred prompts. Additionally, we propose an adaptive feature extraction module to ensure diversity in the generated results. Experiments demonstrate that our approach is capable of generating more visually appealing and diverse images than previous state-of-the-art methods, achieving an average improvement of 5% across six quality and aesthetic metrics.


翻译:精心设计的提示已展现出引导文图模型生成惊艳图像的潜力。现有提示工程方法虽能提供高层级指导,但由于新手用户输入提示与模型偏好提示之间存在差异,致使新手用户难以通过手动输入提示获得理想结果。为弥合用户输入行为与模型训练数据集之间的分布鸿沟,我们首先构建了全新的粗细粒度提示数据集(CFP),并提出了一种面向自动化提示优化的用户友好型细粒度文本生成框架(UF-FGTG)。在CFP方面,我们针对文图任务构建了融合粗粒度与细粒度提示的新型数据集,以推动自动化提示生成方法的发展。在UF-FGTG方面,我们提出了自动将用户输入提示转化为模型偏好提示的全新框架。具体而言,我们设计了持续改写提示的提示精炼器,使用户能够选择契合个性化需求的结果;同时将文图模型中的图像相关损失函数集成到文本生成训练过程中,以生成模型偏好提示。此外,我们还提出了自适应特征提取模块,确保生成结果的多样性。实验证明,我们的方法能生成比现有最优方法更富视觉吸引力且更多样化的图像,在六项质量与美学指标上平均提升5%。

0
下载
关闭预览

相关内容

图提示在图学习模型中的应用:近期进展与未来方向
专知会员服务
25+阅读 · 2025年6月11日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
提示学习在图神经网络中的应用
专知会员服务
36+阅读 · 2023年8月27日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
图表示学习Graph Embedding综述
图与推荐
10+阅读 · 2020年3月23日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月15日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
图提示在图学习模型中的应用:近期进展与未来方向
专知会员服务
25+阅读 · 2025年6月11日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
提示学习在图神经网络中的应用
专知会员服务
36+阅读 · 2023年8月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员