Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to $\mathbf{1.7\times}$ - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.


翻译:自回归模型在图像合成领域取得了显著成功,但其序列化特性带来了显著的延迟限制。推测解码为加速提供了一条有前景的路径,然而现有方法受限于令牌级模糊性和空间感知能力的缺乏。本文提出多尺度局部推测解码,这是一种新颖的框架,通过结合多分辨率草稿生成与空间感知验证来加速自回归图像生成。我们的方法利用低分辨率草稿模型配合学习型上采样器来生成候选图像令牌,随后由高分辨率目标模型并行验证。关键的是,我们引入了局部拒绝与重采样机制,通过聚焦于空间邻域而非首次拒绝后的光栅扫描式重采样,实现了对草稿错误的高效修正。实验表明,MuLo-SD实现了显著的加速效果——最高达$\mathbf{1.7\times}$——在加速性能上超越了EAGLE-2和LANTERN等强推测解码基线方法,同时保持了可比的语义对齐度和感知质量。这些结果在MS-COCO 5k验证集上通过GenEval、DPG-Bench及FID/HPSv2指标得到验证。大量消融实验揭示了上采样设计、概率池化以及带邻域扩展的局部拒绝与重采样机制的影响。我们的方法为图像合成中的推测解码设立了新的技术标杆,在效率与保真度之间架起了桥梁。

0
下载
关闭预览

相关内容

统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
31+阅读 · 2025年5月6日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员