Offline LLM inference seeks to maximize request processing under fixed budgets, making commodity GPU servers a promising choice. However, prior work typically considers offloading and parallelism in isolation, resulting in suboptimal performance. In this paper, we propose PipeMax, a high-throughput LLM inference system that integrates pipeline parallelism with offloading to overcome interconnect and memory constraints on GPU servers. Particularly, pipeline parallelism naturally incurs low communication overhead and keeps only one batch active on each GPU at a time, which enables offloading the KV cache of inactive batches. By coordinating computation with offloading data movement, PipeMax effectively expands GPU memory capacity and sustains large-batch execution. Experiments show that PipeMax achieves up to 2.51x higher throughput than vLLM, and up to 1.42x and 1.38x higher throughput than state-of-the-art high-throughput LLM systems, respectively, on an 8-GPU node.


翻译:离线LLM推理旨在固定预算下最大化请求处理效率,这使得商用GPU服务器成为有前景的选择。然而,现有工作通常将卸载与并行处理割裂考虑,导致性能次优。本文提出PipeMax——一种高吞吐量LLM推理系统,通过融合流水线并行与卸载技术,克服GPU服务器的互连与内存瓶颈。具体而言,流水线并行天然具有低通信开销特性,且每次仅让一个批次在单个GPU上处于活跃状态,这使得非活跃批次的KV缓存得以卸载。通过协调计算与卸载数据移动,PipeMax有效扩展了GPU内存容量并维持大批量执行。实验表明,在8-GPU节点上,PipeMax相较于vLLM实现最高2.51倍吞吐量提升,相较于现有最先进的高吞吐量LLM系统分别实现最高1.42倍和1.38倍吞吐量提升。

0
下载
关闭预览

相关内容

打造 LLMOps 时代 Prompt 数据驱动引擎
专知会员服务
34+阅读 · 2024年8月23日
揭秘NVIDIA大模型推理框架:TensorRT-LLM
专知会员服务
56+阅读 · 2024年2月1日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员