Speculative decoding has rapidly emerged as a leading approach for accelerating language model (LM) inference, as it offers substantial speedups while yielding identical outputs. This relies upon a small draft model, tasked with predicting the outputs of the target model. State-of-the-art speculative decoding methods use a draft model consisting of a single decoder layer and output embedding matrix, with the latter dominating drafting time for the latest LMs. Recent work has sought to address this output distribution bottleneck by reducing the vocabulary of the draft model. Although this can improve throughput, it compromises speculation effectiveness when the target token is out-of-vocabulary. In this paper, we argue for vocabulary speculation as an alternative to a reduced vocabulary. We propose SpecVocab, an efficient and effective method that selects a vocabulary subset per decoding step. Across a variety of tasks, we demonstrate that SpecVocab can achieve a higher acceptance length than state-of-the-art speculative decoding approach, EAGLE-3. Notably, this yields up to an 8.1% increase in average throughput over EAGLE-3.


翻译:推测解码已迅速成为加速语言模型推理的主流方法,因其能在保证输出完全相同的同时实现显著的加速效果。该方法依赖于一个小型草稿模型,其任务是预测目标模型的输出。最先进的推测解码方法使用仅包含单个解码器层和输出嵌入矩阵的草稿模型,其中后者在最新语言模型的草稿生成时间中占主导地位。近期研究试图通过缩减草稿模型的词汇表来解决这一输出分布瓶颈。虽然这可以提高吞吐量,但当目标标记超出词汇表范围时,会损害推测的有效性。本文主张将词汇推测作为缩减词汇表的替代方案。我们提出了SpecVocab,一种高效且有效的方法,它在每个解码步骤动态选择词汇子集。在多种任务上的实验表明,SpecVocab能够实现比最先进的推测解码方法EAGLE-3更高的接受长度。值得注意的是,这带来了相较于EAGLE-3高达8.1%的平均吞吐量提升。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
知识图谱可解释推理研究综述
专知会员服务
178+阅读 · 2021年12月31日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员