While diffusion models dominate the field of visual generation, they are computationally inefficient, applying a uniform computational effort regardless of different complexity. In contrast, autoregressive (AR) models are inherently complexity-aware, as evidenced by their variable likelihoods, but are often hindered by lossy discrete tokenization and error accumulation. In this work, we introduce Generative Refinement Networks (GRN), a next-generation visual synthesis paradigm to address these issues. At its core, GRN addresses the discrete tokenization bottleneck through a theoretically near-lossless Hierarchical Binary Quantization (HBQ), achieving a reconstruction quality comparable to continuous counterparts. Built upon HBQ's latent space, GRN fundamentally upgrades AR generation with a global refinement mechanism that progressively perfects and corrects artworks -- like a human artist painting. Besides, GRN integrates an entropy-guided sampling strategy, enabling complexity-aware, adaptive-step generation without compromising visual quality. On the ImageNet benchmark, GRN establishes new records in image reconstruction (0.56 rFID) and class-conditional image generation (1.81 gFID). We also scale GRN to more challenging text-to-image and text-to-video generation, delivering superior performance on an equivalent scale. We release all models and code to foster further research on GRN.


翻译:尽管扩散模型在视觉生成领域占据主导地位,但其计算效率低下,对不同复杂度的任务采用统一的计算量。相比之下,自回归(AR)模型因其可变似然性而天然具备复杂度感知能力,但常受限于有损离散标记化和误差累积。本文提出下一代视觉合成范式——生成式精炼网络(GRN),以解决上述问题。其核心在于通过理论上的近乎无损的分层二元量化(HBQ)突破离散标记化瓶颈,实现与连续模型媲美的重构质量。基于HBQ的潜在空间,GRN从根本上升级了自回归生成,引入全局精炼机制——如同人类画家作画般逐步完善和修正作品。此外,GRN融合了熵引导采样策略,能在不牺牲视觉质量的前提下实现复杂度感知的自适应步长生成。在ImageNet基准测试中,GRN在图像重构(0.56 rFID)和类别条件图像生成(1.81 gFID)任务上创下新纪录。我们还将GRN扩展至更具挑战性的文本到图像与文本到视频生成任务,在同等规模下展现出卓越性能。我们开源所有模型与代码,以促进GRN的进一步研究。

0
下载
关闭预览

相关内容

面向计算机视觉的数据生成与应用研究进展
专知会员服务
14+阅读 · 2025年5月10日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
生成式人工智能在可视化中的应用:现状与未来方向
专知会员服务
42+阅读 · 2024年6月8日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
专知会员服务
96+阅读 · 2021年2月6日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员