DUET：具有预填充与解码专用模块的解耦式混合Mamba-Transformer大语言模型 (DUET: Disaggregated Hybrid Mamba-Transformer LLMs with Prefill and Decode-Specific Packages) - 专知论文

会员服务 ·

0

解码 · Duet · 混合 · 内存 · 矩阵乘法 ·

DUET: Disaggregated Hybrid Mamba-Transformer LLMs with Prefill and Decode-Specific Packages

翻译：DUET：具有预填充与解码专用模块的解耦式混合Mamba-Transformer大语言模型

Alish Kanani,Sangwan Lee,Han Lyu,Jiahao Lin,Jaehyun Park,Umit Y. Ogras

from arxiv, Paper accepted for publication at the Design Automation Conference (DAC) 2026 conference

Large language models operate in distinct compute-bound prefill followed by memory bandwidth-bound decode phases. Hybrid Mamba-Transformer models inherit this asymmetry while adding state space model (SSM) recurrences and element-wise operations that map poorly to matmul-centric accelerators. This mismatch causes performance bottlenecks, showing that a homogeneous architecture cannot satisfy all requirements. We introduce DUET, a disaggregated accelerator that assigns prefill and decode phases to specialized packages. The Prefill package utilizes systolic array chiplets with off-package memory for efficient large matrix multiplications and long-sequence SSMs. The Decode package utilizes vector-unit arrays with high-bandwidth in-package memory to accelerate token-by-token SSM and vector-matrix multiplications. Both architectures are runtime-configurable to support hybrid models with mixed Mamba and attention layers. Evaluations on Nemotron-H-56B, Zamba2-7B, and Llama3-8B across four workloads show that DUET achieves 4x faster time to first token, 1.4x higher throughput, and 1.5x lower time between tokens over the B200 GPU.

翻译：大语言模型在运行中经历两个截然不同的阶段：先是以计算为瓶颈的预填充阶段，随后是以内存带宽为瓶颈的解码阶段。混合Mamba-Transformer模型继承了这种不对称性，同时引入了状态空间模型（SSM）的递归运算和逐元素操作，这些操作难以有效映射到以矩阵乘法为核心设计的加速器上。这种不匹配导致了性能瓶颈，表明单一同构架构无法满足所有需求。我们提出了DUET，一种解耦式加速器，它将预填充和解码阶段分别分配给专用模块。预填充模块采用脉动阵列芯粒搭配片外内存，以高效执行大规模矩阵乘法和长序列SSM运算。解码模块则采用向量单元阵列搭配高带宽片内内存，以加速逐令牌的SSM和向量-矩阵乘法运算。两种架构均支持运行时配置，以适应混合了Mamba层和注意力层的模型。在Nemotron-H-56B、Zamba2-7B和Llama3-8B模型上，针对四种工作负载的评估表明，与B200 GPU相比，DUET实现了4倍的首令牌生成加速、1.4倍的吞吐量提升以及1.5倍的令牌间延迟降低。

0

相关内容

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【ETZH博士论文】语言模型编程

【ETZH博士论文】语言模型编程

专知会员服务

22+阅读 · 1月8日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

专知会员服务

29+阅读 · 2024年10月4日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel

Arxiv

0+阅读 · 3月16日

SkipOPU: An FPGA-based Overlay Processor for Large Language Models with Dynamically Allocated Computation

Arxiv

0+阅读 · 3月16日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Arxiv

0+阅读 · 3月3日

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Arxiv

0+阅读 · 2月22日

BiScale: Energy-Efficient Disaggregated LLM Serving via Phase-Aware Placement and DVFS

Arxiv

0+阅读 · 2月21日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution

Arxiv

0+阅读 · 2月4日

MixLM: High-Throughput and Effective LLM Ranking via Text-Embedding Mix-Interaction

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

专知会员服务

0+阅读 · 今天14:26

从预训练模型到大语言模型：人工智能驱动的心理计算综述

从预训练模型到大语言模型：人工智能驱动的心理计算综述

专知会员服务

0+阅读 · 今天14:22

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

专知会员服务

3+阅读 · 今天12:11

《对信息环境分析实现人工智能预测冲突》96页

《对信息环境分析实现人工智能预测冲突》96页

专知会员服务

3+阅读 · 今天9:59

《面向海军应用的无人机网络安全仿真环境》

《面向海军应用的无人机网络安全仿真环境》

专知会员服务

4+阅读 · 今天9:41

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

专知会员服务

4+阅读 · 今天9:17

无人机与僵局：俄乌战争难以突破

无人机与僵局：俄乌战争难以突破

专知会员服务

3+阅读 · 今天9:02

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

专知会员服务

6+阅读 · 今天8:55

《控制对手感知：电子战愿景与赋能技术》

《控制对手感知：电子战愿景与赋能技术》

专知会员服务

5+阅读 · 今天8:51

【NTU博士论文】缓解视觉及视觉-语言模型中的捷径学习并提升分布外泛化能力

【NTU博士论文】缓解视觉及视觉-语言模型中的捷径学习并提升分布外泛化能力

专知会员服务

4+阅读 · 4月6日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

9+阅读 · 4月6日

《评估杀伤力：陆军战斗力与兵力设计》最新45页报告

《评估杀伤力：陆军战斗力与兵力设计》最新45页报告

专知会员服务

13+阅读 · 4月6日

自主、人工智能与可消耗集群时代的海军情报

自主、人工智能与可消耗集群时代的海军情报

专知会员服务

8+阅读 · 4月6日

“史诗狂怒行动”中的海军动态

“史诗狂怒行动”中的海军动态

专知会员服务

10+阅读 · 4月5日

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

专知会员服务

11+阅读 · 4月5日

相关VIP内容

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【ETZH博士论文】语言模型编程

【ETZH博士论文】语言模型编程

专知会员服务

22+阅读 · 1月8日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

专知会员服务

29+阅读 · 2024年10月4日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

热门VIP内容

开通专知VIP会员享更多权益服务

从预训练模型到大语言模型：人工智能驱动的心理计算综述

《对信息环境分析实现人工智能预测冲突》96页

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

相关论文

PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel

Arxiv

0+阅读 · 3月16日

SkipOPU: An FPGA-based Overlay Processor for Large Language Models with Dynamically Allocated Computation

Arxiv

0+阅读 · 3月16日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Arxiv

0+阅读 · 3月3日

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Arxiv

0+阅读 · 2月22日

BiScale: Energy-Efficient Disaggregated LLM Serving via Phase-Aware Placement and DVFS

Arxiv

0+阅读 · 2月21日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution

Arxiv

0+阅读 · 2月4日

MixLM: High-Throughput and Effective LLM Ranking via Text-Embedding Mix-Interaction

Arxiv

0+阅读 · 1月31日

相关基金

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员