DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models - 专知论文

会员服务 ·

0

分解 · 并行 · 并行推理 · 语言模型 · 系统 ·

DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models

翻译：DeInfer：面向分解式大语言模型的高效并行推理

You-Liang Huang,Xinhao Huang,Chengxi Liao,Zeyi Wen

from arxiv, accepted by DAC'26

Existing works on large language model (LLM) decomposition mainly focus on improving performance on downstream tasks, but they ignore the poor parallel inference performance when trying to scale up the model size. To mitigate this important performance issue, this paper introduces DeInfer, a high-performance inference system dedicated to parallel inference of decomposed LLMs. It consists of multiple optimizations to maximize performance and be compatible with state-of-the-art optimization techniques. Extensive experiments are carried out to evaluate DeInfer's performance, where the results demonstrate its superiority, suggesting it can greatly facilitate the parallel inference of decomposed LLMs.

翻译：现有的大语言模型分解工作主要关注于提升下游任务性能，但忽略了在扩大模型规模时并行推理性能低下的问题。为解决这一重要性能瓶颈，本文提出DeInfer——一个专为分解式大语言模型并行推理设计的高性能推理系统。该系统融合了多项优化技术以最大化性能，并与当前最先进的优化方法兼容。通过大量实验对DeInfer进行性能评估，结果证明了其优越性，表明该系统能显著促进分解式大语言模型的并行推理。

0

相关内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

0+阅读 · 今天14:22

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

16+阅读 · 4月12日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

32+阅读 · 2025年9月4日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

36+阅读 · 2025年5月3日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

Arxiv

0+阅读 · 4月22日

A Survey of Inductive Reasoning for Large Language Models

Arxiv

0+阅读 · 4月13日

Attention-Aligned Reasoning for Large Language Models

Arxiv

0+阅读 · 3月27日

Sequence-aware Large Language Models for Explainable Recommendation

Arxiv

0+阅读 · 3月25日

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Arxiv

0+阅读 · 3月18日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Arxiv

0+阅读 · 2月27日

ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

0+阅读 · 今天14:22

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

0+阅读 · 今天14:19

《美军软件工厂案例研究：空军数字人才的人员需求》

《美军软件工厂案例研究：空军数字人才的人员需求》

专知会员服务

6+阅读 · 今天7:50

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

6+阅读 · 今天7:35

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

15+阅读 · 今天7:24

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

6+阅读 · 今天5:52

下一代软件定义无线电：锻造现代战场的数字支柱

下一代软件定义无线电：锻造现代战场的数字支柱

专知会员服务

7+阅读 · 今天3:48

综合压制敌方防空和网电活动：北约反一体化防空系统策略的多域方法（中英文版下载）

综合压制敌方防空和网电活动：北约反一体化防空系统策略的多域方法（中英文版下载）

专知会员服务

13+阅读 · 今天2:20

美军“软件工厂”：为作战指挥官赋能数字战场

美军“软件工厂”：为作战指挥官赋能数字战场

专知会员服务

13+阅读 · 今天2:03

《面向大规模决策的分布式优化架构》247页

《面向大规模决策的分布式优化架构》247页

专知会员服务

15+阅读 · 今天1:57

《概率分布增强战争迷雾场景下的导航与战略规划》88页

《概率分布增强战争迷雾场景下的导航与战略规划》88页

专知会员服务

13+阅读 · 今天1:50

《评估用于军事空军基地作战监控的视觉语言模型：卫星图像中的零样本飞机检测》

《评估用于军事空军基地作战监控的视觉语言模型：卫星图像中的零样本飞机检测》

专知会员服务

8+阅读 · 今天1:47

《量子传感及其在印度军事导航系统中的应用》2026最新50页报告

《量子传感及其在印度军事导航系统中的应用》2026最新50页报告

专知会员服务

7+阅读 · 今天1:40

【ICML2026】WeatherSyn：面向天气报告生成的指令微调多模态大语言模型

【ICML2026】WeatherSyn：面向天气报告生成的指令微调多模态大语言模型

专知会员服务

3+阅读 · 5月11日

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

16+阅读 · 5月11日

相关VIP内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

0+阅读 · 今天14:22

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

16+阅读 · 4月12日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

32+阅读 · 2025年9月4日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

36+阅读 · 2025年5月3日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

《美军软件工厂案例研究：空军数字人才的人员需求》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

相关论文

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

Arxiv

0+阅读 · 4月22日

A Survey of Inductive Reasoning for Large Language Models

Arxiv

0+阅读 · 4月13日

Attention-Aligned Reasoning for Large Language Models

Arxiv

0+阅读 · 3月27日

Sequence-aware Large Language Models for Explainable Recommendation

Arxiv

0+阅读 · 3月25日

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Arxiv

0+阅读 · 3月18日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Arxiv

0+阅读 · 2月27日

ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection

Arxiv

0+阅读 · 2月25日

相关基金

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员