Agentic LLM inference with long contexts is increasingly limited by memory bandwidth rather than compute. In this setting, SwiGLU MLP blocks, whose large weights exceed cache capacity, become a major yet under-optimized bottleneck. We propose DeepFusionKernel, a deeply fused kernel that cuts HBM traffic and boosts cache reuse, delivering up to 13.2% speedup on H100 and 9.7% on A100 over SGLang. Integrated with SGLang and paired with a kernel scheduler, DeepFusionKernel ensures consistent accelerations over generation lengths, while remaining adaptable to diverse models, inference configurations, and hardware platforms.


翻译:在具有长上下文的智能体式LLM推理中,内存带宽而非计算能力日益成为限制因素。在此背景下,SwiGLU MLP模块因其庞大的权重超出缓存容量,成为一个主要但尚未充分优化的瓶颈。我们提出DeepFusionKernel,一种深度融合的内核,可减少HBM流量并提升缓存复用率,在H100上相比SGLang实现高达13.2%的加速,在A100上实现9.7%的加速。该内核与SGLang集成,并配合内核调度器使用,能在生成长度范围内保持稳定的加速效果,同时保持对多样化模型、推理配置和硬件平台的适应性。

0
下载
关闭预览

相关内容

最新,DeepSeek-R1论文登上Nature封面,附83页补充材料
专知会员服务
27+阅读 · 2025年9月18日
DeepSeek模型关键创新技术综述
专知会员服务
48+阅读 · 2025年3月21日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
八问八答搞懂Transformer内部运作原理
专知会员服务
35+阅读 · 2024年8月9日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
最新,DeepSeek-R1论文登上Nature封面,附83页补充材料
专知会员服务
27+阅读 · 2025年9月18日
DeepSeek模型关键创新技术综述
专知会员服务
48+阅读 · 2025年3月21日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
八问八答搞懂Transformer内部运作原理
专知会员服务
35+阅读 · 2024年8月9日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员