大语言模型(LLM)推理正越来越多地应用于对延迟敏感和成本敏感的场景,但其本质上仍受限于自回归解码的串行特性。投机性解码(Speculative decoding)作为一种极具前景的技术脱颖而出,它通过引入请求内并行性(intra-request parallelism),允许目标模型并行验证多个 Token,从而缓解了这一瓶颈。然而,尽管该技术已被广泛采用,但在实际系统中其性能表现却表现出脆弱且高度波动的特性;其有效性敏感地取决于工作负载特征、批处理大小(batch sizes)、模型配置以及系统运行状态。 本论文从全栈系统视角研究了投机性解码,涵盖了算法设计、经验特征表征以及生产级控制机制。首先,我们提出了在线投机性解码(Online Speculative Decoding, OSD),这是一个在推理服务过程中根据不断演变的查询分布持续优化草稿模型的框架。通过利用知识蒸馏技术,OSD 能够动态提高 Token 的接受率,并在不增加草稿模型参数量的前提下显著降低推理延迟,证明了投机性解码的性能可以进行动态优化而非仅仅依赖静态配置。 其次,我们推出了 TurboSpec,这是一个用于 LLM 推理服务的投机性解码闭环控制系统。TurboSpec 将有效吞吐量(goodput,即单位时间内成功生成的 Token 速率)定义为统一的系统指标,并结合离线分析与在线反馈,在运行时动态调整投机参数。通过自适应平衡请求间批处理(inter-request batching)与请求内投机(intra-request speculation),TurboSpec 在不同的工作负载、硬件平台和投机解码方法中实现了鲁棒的性能优化,消除了手动调优的必要,并防止了在高负载或低接受率情境下的性能回退。 最后,我们在广泛部署的推理引擎中对投机性解码进行了首次系统性的生产级评测。通过对投机解码变体、工作负载、批处理大小和模型规模的大规模基准测试,我们发现大目标模型的验证过程仍然是核心开销所在,而 Token 接受行为在不同位置、请求和数据集之间存在剧烈波动。我们量化了投机性解码加速比的理论上限,并指出现有方法与该极限仍有较大差距。该分析重新定义了投机性解码的本质——它不仅是一个草稿生成问题,更是一个验证效率问题,并据此指出了自适应与选择性验证的新研究方向。 综上所述,这些贡献为投机性解码在真实 LLM 推理服务系统中的应用奠定了科学且实用的基础。本论文表明,实现可靠的推理加速不仅需要更优的草稿模型,还需要自适应学习、严谨的系统级分析以及反馈驱动的控制。这为开发能够在生产环境中持续自我优化的下一代智能推理系统指明了方向。