LoRA enables efficient customization of LLMs and is widely used in multi-tenant and multi-task serving. However, emerging model architectures such as MoE significantly increase LoRA memory cost, making existing coupled LoRA serving designs poorly scalable and prone to tail-latency inflation. We present InfiniLoRA, a disaggregated LoRA serving system that decouples LoRA execution from base-model inference. InfiniLoRA introduces a shared LoRA Server with parallelism-aware execution, SLO-driven provisioning, and critical-path optimizations, including GPU-initiated communication and hardware-specialized LoRA kernels. Experiments show that InfiniLoRA can achieve an average $3.05\times$ increase in serviceable request rate under strict latency SLOs, and improve the percentage of LoRA adapters satisfying the SLO requirement by 54.0\%.


翻译:LoRA技术实现了对大语言模型的高效定制,广泛应用于多租户与多任务服务场景。然而,以MoE为代表的新型模型架构显著增加了LoRA的内存开销,导致现有耦合式LoRA服务设计可扩展性差且易于出现尾延迟膨胀问题。本文提出InfiniLoRA——一种解耦式LoRA服务系统,将LoRA执行从基座模型推理中分离。InfiniLoRA引入了共享LoRA服务器,包含并行感知执行机制、SLO驱动的资源供给策略以及关键路径优化方案(包括GPU发起通信与硬件专用LoRA内核)。实验表明,InfiniLoRA在严格延迟SLO约束下可实现服务请求率的平均3.05倍提升,并使满足SLO要求的LoRA适配器比例提升54.0%。

0
下载
关闭预览

相关内容

《多语言大型语言模型:系统综述》
专知会员服务
50+阅读 · 2024年11月21日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
多模态大语言模型
专知会员服务
98+阅读 · 2024年6月25日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员