Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).


翻译:摘要:媒体设计分层生成技术使得仅通过自然语言提示即可创建完全可编辑的分层设计文档,如海报、传单和标志。现有方法要么将输出限制为固定数量的图层,要么要求每个图层仅包含空间连续区域,导致图层数量随设计复杂度线性增长。我们提出LaDe(分层媒体设计),一种潜扩散框架,能够生成灵活数量的具有语义意义的图层。LaDe结合三个组件:基于大语言模型的提示扩展器,将简短用户意图转化为结构化逐层描述以引导生成;配备4D旋转位置编码机制的潜扩散Transformer,联合生成完整媒体设计及其构成RGBA图层;以及支持全Alpha通道解码每个图层的RGBA变分自编码器。通过在训练中基于图层样本进行条件约束,我们的统一框架支持三项任务:文本到图像生成、文本到分层媒体设计生成及媒体设计分解。我们在Crello测试集上,将LaDe与Qwen-Image-Layered在文本到图层和图像到图层任务上进行对比。LaDe在文本到图层生成任务中通过改善文本-图层对齐效果超越Qwen-Image-Layered,该结论经两个视觉大语言模型评判器(GPT-4o mini和Qwen3-VL)验证。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
33+阅读 · 2025年5月6日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
统一的多模态文字理解与生成大模型
专知会员服务
30+阅读 · 2024年10月11日
【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关VIP内容
统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
33+阅读 · 2025年5月6日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
统一的多模态文字理解与生成大模型
专知会员服务
30+阅读 · 2024年10月11日
【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员