Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to Autoregressive Models (ARMs), utilizing parallel decoding to overcome sequential bottlenecks. However, existing research focuses primarily on kernel-level optimizations, lacking a holistic serving framework that addresses the unique memory dynamics of diffusion processes in production. We identify a critical "memory footprint crisis" specific to dLLMs, driven by monolithic logit tensors and the severe resource oscillation between compute-bound "Refresh" phases and bandwidth-bound "Reuse" phases. To bridge this gap, we present dLLM-Serve, an efficient dLLM serving system that co-optimizes memory footprint, computational scheduling, and generation quality. dLLM-Serve introduces Logit-Aware Activation Budgeting to decompose transient tensor peaks, a Phase-Multiplexed Scheduler to interleave heterogeneous request phases, and Head-Centric Sparse Attention to decouple logical sparsity from physical storage. We evaluate dLLM-Serve on diverse workloads (LiveBench, Burst, OSC) and GPUs (RTX 4090, L40S). Relative to the state-of-the-art baseline, dLLM-Serve improves throughput by 1.61$\times$-1.81$\times$ on the consumer-grade RTX 4090 and 1.60$\times$-1.74$\times$ on the server-grade NVIDIA L40S, while reducing tail latency by nearly 4$\times$ under heavy contention. dLLM-Serve establishes the first blueprint for scalable dLLM inference, converting theoretical algorithmic sparsity into tangible wall-clock acceleration across heterogeneous hardware. The code is available at https://github.com/chosen-ox/dLLM-Serve.


翻译:扩散大语言模型(dLLMs)已成为自回归模型(ARMs)的一种有前景的替代方案,其利用并行解码来克服序列化瓶颈。然而,现有研究主要集中于内核级优化,缺乏一个能够应对生产环境中扩散过程独特内存动态的整体服务框架。我们识别出 dLLMs 特有的一个关键"内存占用危机",其根源在于庞大的对数张量以及计算密集型"刷新"阶段与带宽密集型"重用"阶段之间剧烈的资源振荡。为弥合此差距,我们提出了 dLLM-Serve,一个高效的服务系统,协同优化内存占用、计算调度与生成质量。dLLM-Serve 引入了对数感知激活预算以分解瞬时张量峰值,一个阶段复用调度器以交错异构请求阶段,以及头部中心稀疏注意力以将逻辑稀疏性与物理存储解耦。我们在多样化工作负载(LiveBench、Burst、OSC)和 GPU(RTX 4090、L40S)上评估了 dLLM-Serve。相较于最先进的基线,dLLM-Serve 在消费级 RTX 4090 上将吞吐量提升了 1.61$\times$-1.81$\times$,在服务器级 NVIDIA L40S 上提升了 1.60$\times$-1.74$\times$,同时在重度争用下将尾部延迟降低了近 4$\times$。dLLM-Serve 为可扩展的 dLLM 推理建立了首个蓝图,将理论上的算法稀疏性转化为跨异构硬件的实际时钟加速。代码发布于 https://github.com/chosen-ox/dLLM-Serve。

0
下载
关闭预览

相关内容

扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
VIP会员
相关VIP内容
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员