Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.


翻译:像素扩散以端到端方式直接在像素空间生成图像,避免了双阶段潜在扩散中由变分自编码器引入的伪影与瓶颈。然而,优化包含大量感知无关信号的高维像素流形具有挑战性,导致现有像素扩散方法落后于潜在扩散模型。我们提出PixelGen——一种配备感知监督的简洁像素扩散框架。该方法不直接建模完整图像流形,而是引入两种互补的感知损失引导扩散模型学习更具意义的感知流形:LPIPS损失促进局部模式学习,而基于DINO的感知损失增强全局语义理解。在感知监督下,PixelGen超越了强基准潜在扩散模型。该模型在ImageNet-256数据集上仅用80训练周期即达到5.11的FID分数(无需无分类器指导),并在大规模文本到图像生成任务中展现出优异的扩展性能(GenEval得分0.79)。PixelGen无需变分自编码器、潜在表示或辅助训练阶段,为生成模型提供了更简洁而强大的新范式。代码已公开于https://github.com/Zehong-Ma/PixelGen。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
自回归模型:PixelCNN
专知会员服务
29+阅读 · 2020年3月21日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
自回归模型:PixelCNN
专知会员服务
29+阅读 · 2020年3月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员