Speculative decoding has rapidly emerged as a leading approach for accelerating language model (LM) inference, as it offers substantial speedups while yielding identical outputs. This relies upon a small draft model, tasked with predicting the outputs of the target model. State-of-the-art speculative decoding methods use a draft model consisting of a single decoder layer and output embedding matrix, with the latter dominating drafting time for the latest LMs. Recent work has sought to address this output distribution bottleneck by reducing the vocabulary of the draft model. Although this can improve throughput, it compromises speculation effectiveness when the target token is out-of-vocabulary. In this paper, we argue for vocabulary speculation as an alternative to a reduced vocabulary. We propose SpecVocab, an efficient and effective method that selects a vocabulary subset per decoding step. Across a variety of tasks, we demonstrate that SpecVocab can achieve a higher acceptance length than state-of-the-art speculative decoding approach, EAGLE-3. Notably, this yields up to an 8.1% increase in average throughput over EAGLE-3.


翻译:推测解码已迅速成为加速语言模型推理的主流方法,因其能在保证输出完全相同的同时实现显著的加速效果。该方法依赖于一个小型草稿模型,其任务是预测目标模型的输出。最先进的推测解码方法使用仅包含单个解码器层和输出嵌入矩阵的草稿模型,其中后者在最新语言模型的草稿生成时间中占主导地位。近期研究试图通过缩减草稿模型的词汇表来解决这一输出分布瓶颈。虽然这可以提高吞吐量,但当目标标记超出词汇表范围时,会损害推测的有效性。本文主张将词汇推测作为缩减词汇表的替代方案。我们提出了SpecVocab,一种高效且有效的方法,它在每个解码步骤动态选择词汇子集。在多种任务上的实验表明,SpecVocab能够实现比最先进的推测解码方法EAGLE-3更高的接受长度。值得注意的是,这带来了相较于EAGLE-3高达8.1%的平均吞吐量提升。

0
下载
关闭预览

相关内容

大语言模型溯因推理的统一分类学与综述
专知会员服务
15+阅读 · 4月12日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
37+阅读 · 2025年1月10日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
知识图谱可解释推理研究综述
专知会员服务
178+阅读 · 2021年12月31日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Arxiv
0+阅读 · 3月3日
Arxiv
0+阅读 · 2月11日
VIP会员
最新内容
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
1+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
3+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
4+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
12+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员