LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition - 专知论文

会员服务 ·

0

设计 · 分层 · 分解 · 语言模型 · 输出 ·

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

翻译：标题：LaDe：统一的多层图形媒体生成与分解

Vlad-Constantin Lungu-Stan,Ionut Mironica,Mariana-Iuliana Georgescu

from arxiv, 18 pages (main + supp)

Media design layer generation enables the creation of fully editable, layered design documents such as posters, flyers, and logos using only natural language prompts. Existing methods either restrict outputs to a fixed number of layers or require each layer to contain only spatially continuous regions, causing the layer count to scale linearly with design complexity. We propose LaDe (Layered Media Design), a latent diffusion framework that generates a flexible number of semantically meaningful layers. LaDe combines three components: an LLM-based prompt expander that transforms a short user intent into structured per-layer descriptions that guide the generation, a Latent Diffusion Transformer with a 4D RoPE positional encoding mechanism that jointly generates the full media design and its constituent RGBA layers, and an RGBA VAE that decodes each layer with full alpha-channel support. By conditioning on layer samples during training, our unified framework supports three tasks: text-to-image generation, text-to-layers media design generation, and media design decomposition. We compare LaDe to Qwen-Image-Layered on text-to-layers and image-to-layers tasks on the Crello test set. LaDe outperforms Qwen-Image-Layered in text-to-layers generation by improving text-to-layer alignment, as validated by two VLM-as-a-judge evaluators (GPT-4o mini and Qwen3-VL).

翻译：摘要：媒体设计分层生成技术使得仅通过自然语言提示即可创建完全可编辑的分层设计文档，如海报、传单和标志。现有方法要么将输出限制为固定数量的图层，要么要求每个图层仅包含空间连续区域，导致图层数量随设计复杂度线性增长。我们提出LaDe（分层媒体设计），一种潜扩散框架，能够生成灵活数量的具有语义意义的图层。LaDe结合三个组件：基于大语言模型的提示扩展器，将简短用户意图转化为结构化逐层描述以引导生成；配备4D旋转位置编码机制的潜扩散Transformer，联合生成完整媒体设计及其构成RGBA图层；以及支持全Alpha通道解码每个图层的RGBA变分自编码器。通过在训练中基于图层样本进行条件约束，我们的统一框架支持三项任务：文本到图像生成、文本到分层媒体设计生成及媒体设计分解。我们在Crello测试集上，将LaDe与Qwen-Image-Layered在文本到图层和图像到图层任务上进行对比。LaDe在文本到图层生成任务中通过改善文本-图层对齐效果超越Qwen-Image-Layered，该结论经两个视觉大语言模型评判器（GPT-4o mini和Qwen3-VL）验证。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

统一的多模态理解与生成模型：进展、挑战与机遇

统一的多模态理解与生成模型：进展、挑战与机遇

专知会员服务

33+阅读 · 2025年5月6日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

统一的多模态文字理解与生成大模型

统一的多模态文字理解与生成大模型

专知会员服务

30+阅读 · 2024年10月11日

【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer

【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer

专知会员服务

16+阅读 · 2024年10月5日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

纵览图像语义分割发展史，11篇关键文章简介

纵览图像语义分割发展史，11篇关键文章简介

专知

13+阅读 · 2019年8月1日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

一文概览用于图像分割的CNN

一文概览用于图像分割的CNN

论智

14+阅读 · 2018年10月30日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

基于LDA的主题模型实践（一）

基于LDA的主题模型实践（一）

机器学习深度学习实战原创交流

20+阅读 · 2015年9月9日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

包含多尺度结构的晶圆级透镜阵列设计和制造关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

生成函数运算下细分光滑性变化规律研究

国家自然科学基金

0+阅读 · 2015年12月31日

稠密图分解和凯莱图分解中若干组合设计问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

Arxiv

0+阅读 · 5月1日

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

Arxiv

0+阅读 · 4月19日

VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

Arxiv

0+阅读 · 4月19日

VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

Arxiv

0+阅读 · 4月16日

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

Arxiv

0+阅读 · 3月30日

SemLayer: Semantic-aware Generative Segmentation and Layer Construction for Abstract Icons

Arxiv

0+阅读 · 3月25日

Workflow-Aware Structured Layer Decomposition for Illustration Production

Arxiv

0+阅读 · 3月18日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

LayerT2V: A Unified Multi-Layer Video Generation Framework

Arxiv

0+阅读 · 2月26日

Cycle-Consistent Tuning for Layered Image Decomposition

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

5+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

2+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

13+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

12+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

22+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

11+阅读 · 6月17日

相关VIP内容

统一的多模态理解与生成模型：进展、挑战与机遇

统一的多模态理解与生成模型：进展、挑战与机遇

专知会员服务

33+阅读 · 2025年5月6日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

统一的多模态文字理解与生成大模型

统一的多模态文字理解与生成大模型

专知会员服务

30+阅读 · 2024年10月11日

【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer

【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer

专知会员服务

16+阅读 · 2024年10月5日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

纵览图像语义分割发展史，11篇关键文章简介

纵览图像语义分割发展史，11篇关键文章简介

专知

13+阅读 · 2019年8月1日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

一文概览用于图像分割的CNN

一文概览用于图像分割的CNN

论智

14+阅读 · 2018年10月30日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

基于LDA的主题模型实践（一）

基于LDA的主题模型实践（一）

机器学习深度学习实战原创交流

20+阅读 · 2015年9月9日

相关论文

BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

Arxiv

0+阅读 · 5月1日

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

Arxiv

0+阅读 · 4月19日

VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

Arxiv

0+阅读 · 4月19日

VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

Arxiv

0+阅读 · 4月16日

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

Arxiv

0+阅读 · 3月30日

SemLayer: Semantic-aware Generative Segmentation and Layer Construction for Abstract Icons

Arxiv

0+阅读 · 3月25日

Workflow-Aware Structured Layer Decomposition for Illustration Production

Arxiv

0+阅读 · 3月18日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

LayerT2V: A Unified Multi-Layer Video Generation Framework

Arxiv

0+阅读 · 2月26日

Cycle-Consistent Tuning for Layered Image Decomposition

Arxiv

0+阅读 · 2月24日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

包含多尺度结构的晶圆级透镜阵列设计和制造关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

生成函数运算下细分光滑性变化规律研究

国家自然科学基金

0+阅读 · 2015年12月31日

稠密图分解和凯莱图分解中若干组合设计问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员