Large Language Model (LLM) serving faces a fundamental tension between stringent latency Service Level Objectives (SLOs) and limited GPU memory capacity. When high request rates exhaust the KV cache budget, existing LLM inference systems often suffer severe head-of-line (HOL) blocking. While prior work explored PCIe-based offloading, these approaches cannot sustain responsiveness under high request rates, often failing to meet tight Time-To-First-Token (TTFT) and Time-Between-Tokens (TBT) SLOs. We present SuperInfer, a high-performance LLM inference system designed for emerging Superchips (e.g., NVIDIA GH200) with tightly coupled GPU-CPU architecture via NVLink-C2C. SuperInfer introduces RotaSched, the first proactive, SLO-aware rotary scheduler that rotates requests to maintain responsiveness on Superchips, and DuplexKV, an optimized rotation engine that enables full-duplex transfer over NVLink-C2C. Evaluations on GH200 using various models and datasets show that SuperInfer improves TTFT SLO attainment rates by up to 74.7% while maintaining comparable TBT and throughput compared to state-of-the-art systems, demonstrating that SLO-aware scheduling and memory co-design unlocks the full potential of Superchips for responsive LLM serving. Code is available in https://github.com/Supercomputing-System-AI-Lab/SuperInfer.


翻译:摘要:大语言模型(LLM)服务面临严格的延迟服务等级协议(SLO)与有限GPU内存容量之间的根本性矛盾。当高请求速率耗尽KV缓存预算时,现有LLM推理系统常遭受严重的队头阻塞。尽管先前工作探索了基于PCIe的卸载方法,但这些方法在高请求速率下无法维持响应能力,往往难以满足严格的首次令牌时间(TTFT)和令牌间隔时间(TBT)SLO。我们提出SuperInfer,一种专为新兴超级芯片(如配备NVLink-C2C紧耦合GPU-CPU架构的NVIDIA GH200)设计的高性能LLM推理系统。SuperInfer引入RotaSched——首个主动式SLO感知旋转调度器,通过轮转请求以维持超级芯片上的响应能力;以及DuplexKV——优化的旋转引擎,支持NVLink-C2C上的全双工传输。在GH200上使用多种模型和数据集进行的评估表明,与最先进系统相比,SuperInfer将TTFT SLO达标率提升高达74.7%,同时保持可比的TBT和吞吐量,证明SLO感知的调度与内存协同设计能够充分释放超级芯片在响应式LLM服务中的潜力。代码可见于https://github.com/Supercomputing-System-AI-Lab/SuperInfer。

0
下载
关闭预览

相关内容

半导体是一类材料的总称,集成电路是用半导体材料制成的电路的大型集合,芯片是由不同种类型的集成电路或者单一类型集成电路形成的产品。
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 54分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员