Masked generative models (MGMs) can generate tokens in parallel and in any order, unlike autoregressive models (ARMs), which decode one token at a time, left-to-right. However, MGMs process the full-length sequence at every sampling step, including mask tokens that carry no information. In contrast, ARMs process only the previously generated tokens. We introduce ``Partition Generative Models'' (PGMs), which replace masking with partitioning. Tokens are split into two groups that cannot attend to each other, and the model learns to predict each group conditioned on the other, eliminating mask tokens entirely. Because the groups do not interact, PGMs can process only the clean tokens during sampling, like ARMs, while retaining parallel, any-order generation, like MGMs. On OpenWebText, PGMs achieve $5-5.5\times$ higher throughput than MDLM while producing samples with lower Generative Perplexity. On ImageNet, PGMs reach comparable FID to MaskGIT with a $7.5\times$ throughput improvement. With twice as many steps, the FID improves to 4.56 while remaining $3.9\times$ faster than MGMs. Finally, PGMs remain compatible with existing MGM samplers and distillation methods.


翻译:掩码生成模型(MGM)能够并行且以任意顺序生成标记,这与自回归模型(ARM)逐标记从左到右解码的方式不同。然而,MGM在每个采样步骤中都需要处理完整长度的序列,其中包括不携带任何信息的掩码标记。相比之下,ARM仅处理先前已生成的标记。我们提出了“分区生成模型”(PGM),其用分区替代了掩码操作。标记被分割为两个互不关注的组,模型学习在给定另一组条件下预测每一组,从而完全消除了掩码标记。由于两组之间不进行交互,PGM在采样过程中可以像ARM一样仅处理干净的标记,同时保留像MGM一样的并行、任意顺序生成能力。在OpenWebText数据集上,PGM实现了比MDLM高$5-5.5\times$的吞吐量,同时生成的样本具有更低的生成困惑度。在ImageNet数据集上,PGM达到了与MaskGIT相当的FID分数,同时吞吐量提升了$7.5\times$。当采样步骤增加一倍时,FID改进至4.56,同时仍比MGM快$3.9\times$。最后,PGM保持了与现有MGM采样器和蒸馏方法的兼容性。

0
下载
关闭预览

相关内容

使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 3月6日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员