Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.


翻译:当前用于图像生成与编辑的统一多模态模型通常依赖于海量参数规模(例如 >100亿),导致训练成本和部署开销极高。本文提出DeepGen 1.0,一个轻量级的50亿参数统一模型,其实现了与更大规模模型相当甚至超越的综合能力。为克服紧凑模型在语义理解和细粒度控制方面的局限,我们引入了堆叠通道桥接(SCB),一种深度对齐框架,该框架从VLM的多个层级提取分层特征,并通过可学习的“思维令牌”将其融合,从而为生成主干网络提供结构化、富含推理的指导。我们进一步设计了一种以数据为中心的三阶段渐进式训练策略:(1)在大规模图文对及编辑三元组上进行对齐预训练,以同步VLM与DiT的表征;(2)在高质量混合的生成、编辑和推理任务上进行联合监督微调,以培养全方位能力;(3)采用MR-GRPO进行强化学习,该方法利用混合奖励函数和监督信号,在保持训练过程稳定、避免视觉伪影的同时,显著提升了生成质量以及与人类偏好的对齐度。尽管仅使用约5000万样本进行训练,DeepGen 1.0在多样化基准测试中均取得了领先性能,在WISE上超越800亿参数的HunyuanImage达28%,在UniREditBench上超越270亿参数的Qwen-Image-Edit达37%。通过开源我们的训练代码、模型权重和数据集,我们为普及统一多模态研究提供了一个高效、高性能的替代方案。

0
下载
关闭预览

相关内容

大模型技术发展与展望 ——DeepSeek 带来的思考
专知会员服务
32+阅读 · 2025年4月9日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
71+阅读 · 2020年10月24日
DeepMind开源最牛无监督学习BigBiGAN预训练模型
新智元
10+阅读 · 2019年10月10日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员