Speculative decoding (SD) is a widely used approach for accelerating decode-heavy LLM inference workloads. While online inference workloads are highly dynamic, existing SD systems are rigid and take a coarse-grained approach to SD management. They typically set the speculative token length for an entire batch and serialize the execution of the draft and verification phases. Consequently, these systems fall short at adapting to volatile online inference traffic. Under low load, they exhibit prolonged latency because the draft phase blocks the verification phase for the entire batch, leaving GPU computing resources underutilized. Conversely, under high load, they waste computation on rejected tokens during the verification phase, overloading GPU resources. We introduce FASER, a novel system that features fine-grained SD phase management. First, FASER minimizes computational waste by dynamically adjusting the speculative length for each request within a continuous batch and by performing early pruning of rejected tokens inside the verification phase. Second, FASER breaks the verification phase into frontiers, or chunks, to overlap them with the draft phase. This overlap is achieved via fine-grained spatial multiplexing with minimal resource interference. Our FASER prototype in vLLM improves throughput by up to 53% and reduces latency by up to 1.92$\times$ compared to state-of-the-art systems.


翻译:投机解码是一种广泛用于加速以解码为主的大语言模型推理工作负载的方法。然而,在线推理工作负载具有高度动态性,现有投机解码系统僵化且采用粗粒度的管理方式,通常为整个批次设定固定的推测令牌长度,并串行执行草稿阶段和验证阶段。因此,这些系统难以适应动态变化的在线推理流量:在低负载下,草稿阶段阻塞整个批次的验证阶段,导致GPU计算资源利用率不足,产生较长延迟;而在高负载下,验证阶段对已拒绝令牌的计算浪费会加重GPU资源过载。我们提出FASER——一种支持细粒度投机解码阶段管理的新型系统。首先,FASER通过动态调整连续批次中每个请求的推测长度,并在验证阶段内对已拒绝令牌进行早期剪枝,从而最小化计算浪费。其次,FASER将验证阶段分解为前沿片段(即分块),使其与草稿阶段重叠执行;这种重叠通过最小化资源干扰的细粒度空间复用实现。基于vLLM的FASER原型相比现有最优系统,吞吐量提升高达53%,延迟降低至原系统的1.92倍。

0
下载
关闭预览

相关内容

基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
38+阅读 · 2025年1月10日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
TheFatRat 一款简易后门工具
黑白之道
36+阅读 · 2019年10月23日
【论文笔记】ICLR 2018 Wasserstein自编码器
专知
32+阅读 · 2018年6月29日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员