The rise of generative AI workloads, particularly language model inference, is intensifying on/off-chip memory pressure. Multimodal inputs such as video streams or images and downstream applications like Question Answering (QA) and analysis over large documents incur long context lengths, requiring caching of massive Key and Value states of the previous tokens. Even a low degree of concurrent inference serving on resource-constrained devices, like mobiles, can further add to memory capacity pressure and runtime memory management complexity. In this paper, we evaluate the performance implications of two emerging technology solutions to alleviate the memory pressure in terms of both capacity and bandwidth using a hierarchical roofline-based analytical performance model. For large models (e.g., 13B parameters) and context lengths, we investigate the performance implications of High Bandwidth Storage (HBS) and outline bandwidth/latency requirements to achieve an acceptable throughput for interactivity. For small models (e.g., 1B parameters), we evaluate the merit of a bonded global buffer memory chiplet and propose how to best utilize it.


翻译:生成式AI工作负载的兴起,特别是语言模型推理,正在加剧片上/片外存储器压力。多模态输入(如视频流或图像)以及下游应用(如问答系统和大文档分析)会产生长上下文长度,需要缓存先前令牌的大量键值状态。即使在资源受限设备(如手机)上运行低并发推理服务,也会进一步增加内存容量压力和运行时内存管理复杂性。本文利用基于层次化屋顶线的分析性能模型,评估了两种新兴技术解决方案在缓解内存容量和带宽压力方面的性能影响。针对大模型(如130亿参数)和长上下文长度,我们研究了高带宽存储器(HBS)的性能影响,并概述了在交互场景中实现可接受吞吐量所需的带宽/延迟要求。针对小模型(如10亿参数),我们评估了绑定全局缓冲存储器芯片的优点,并提出了最佳利用方案。

0
下载
关闭预览

相关内容

《人工智能:生成式AI的环境与人文影响》最新47页报告
专知会员服务
18+阅读 · 2025年7月15日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
17+阅读 · 2025年4月30日
中文版 | 生成式AI如何提升军事决策效能
专知会员服务
26+阅读 · 2025年4月16日
生成式AI:认知对抗的新武器
专知会员服务
84+阅读 · 2023年12月29日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 4分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 59分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《人工智能:生成式AI的环境与人文影响》最新47页报告
专知会员服务
18+阅读 · 2025年7月15日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
17+阅读 · 2025年4月30日
中文版 | 生成式AI如何提升军事决策效能
专知会员服务
26+阅读 · 2025年4月16日
生成式AI:认知对抗的新武器
专知会员服务
84+阅读 · 2023年12月29日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员