Existing works on large language model (LLM) decomposition mainly focus on improving performance on downstream tasks, but they ignore the poor parallel inference performance when trying to scale up the model size. To mitigate this important performance issue, this paper introduces DeInfer, a high-performance inference system dedicated to parallel inference of decomposed LLMs. It consists of multiple optimizations to maximize performance and be compatible with state-of-the-art optimization techniques. Extensive experiments are carried out to evaluate DeInfer's performance, where the results demonstrate its superiority, suggesting it can greatly facilitate the parallel inference of decomposed LLMs.


翻译:现有的大语言模型分解工作主要关注于提升下游任务性能,但忽略了在扩大模型规模时并行推理性能低下的问题。为解决这一重要性能瓶颈,本文提出DeInfer——一个专为分解式大语言模型并行推理设计的高性能推理系统。该系统融合了多项优化技术以最大化性能,并与当前最先进的优化方法兼容。通过大量实验对DeInfer进行性能评估,结果证明了其优越性,表明该系统能显著促进分解式大语言模型的并行推理。

0
下载
关闭预览

相关内容

大语言模型溯因推理的统一分类学与综述
专知会员服务
16+阅读 · 4月12日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
94+阅读 · 2024年2月17日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
美军“软件工厂”:为作战指挥官赋能数字战场
专知会员服务
13+阅读 · 今天2:03
《面向大规模决策的分布式优化架构》247页
专知会员服务
15+阅读 · 今天1:57
智能体技能综合综述:分类、技术与应用
专知会员服务
16+阅读 · 5月11日
相关VIP内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
16+阅读 · 4月12日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
94+阅读 · 2024年2月17日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员