InfiniPipe: Elastic Pipeline Parallelism for Efficient Variable-Length Long-Context LLM Training - 专知论文

会员服务 ·

0

InfiniPipe: Elastic Pipeline Parallelism for Efficient Variable-Length Long-Context LLM Training

翻译：InfiniPipe：面向可变长度长上下文LLM高效训练的弹性流水线并行

Shiju Wang,Yujie Wang,Ao Sun,Fangcheng Fu,Zijian Zhu,Bin Cui,Xu Han,Kaisheng Ma

Long context training is crucial for LLM's context extension. Existing schemes, such as sequence parallelism, incur substantial communication overhead. Pipeline parallelism (PP) reduces this cost, but its effectiveness hinges on partitioning granularity. Batch-level PP employing sequence packing exhibits high memory consumption in long-context scenarios, whereas token-level PP splitting sequences into slices alleviates memory overhead but may incur hardware under-utilization. Moreover, the skewed distribution of sequence length in real-world datasets renders monolithic and static granularity PP's sub-optimal performance. In this paper, we propose 1) \textit{Elastic Pipeline Parallelism} (EPP) that orchestrates token-level PP and batch-level PP to adapt to resource and workload heterogeneity, and 2) \textit{Stage-Aware Chunk-Level Adaptive Checkpointing} that efficiently integrates gradient checkpointing with EPP. Comprehensive experiments demonstrate that InfiniPipe achieves a 1.69x speedup over state-of-the-art systems. Our code is open-sourced at https://github.com/wsjdsg/InfiniPipe.git.

翻译：长上下文训练对LLM的上下文扩展至关重要。现有方案（如序列并行）会引入显著通信开销。流水线并行（PP）虽能降低该开销，但其有效性取决于划分粒度。采用序列打包的批级别PP在长上下文场景中内存消耗较高，而将序列切分为片段的令牌级别PP虽缓解了内存开销，却可能导致硬件利用率不足。此外，真实数据集中序列长度的偏态分布使得单一静态粒度的PP性能次优。本文提出：1）弹性流水线并行（EPP）——协调令牌级别PP与批级别PP以适应资源与工作负载异质性；2）阶段感知的块级自适应检查点——将梯度检查点与EPP高效集成。综合实验表明，InfiniPipe相比现有最优系统可实现1.69倍加速。我们的代码已开源至https://github.com/wsjdsg/InfiniPipe.git。

0

相关内容

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

专知会员服务

8+阅读 · 5月17日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

专知会员服务

38+阅读 · 2024年1月7日

【白皮书】从头训练大型语言模型LLM最佳实践

【白皮书】从头训练大型语言模型LLM最佳实践

专知会员服务

150+阅读 · 2023年8月24日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

泡泡机器人SLAM

11+阅读 · 2018年8月22日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

非线性组合优化暑期学校暨学术前沿研讨会

国家自然科学基金

6+阅读 · 2017年6月30日

猪长链非编码RNA-ED1与miR-21的互作及其对骨骼肌生长发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

激光激活纳米线液相催化生长行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

Arxiv

0+阅读 · 4月29日

ProTrain: Efficient LLM Training via Memory-Aware Techniques

Arxiv

0+阅读 · 4月20日

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Arxiv

0+阅读 · 4月2日

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Arxiv

0+阅读 · 3月24日

PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection

Arxiv

0+阅读 · 3月23日

OrbitFlow: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration

Arxiv

0+阅读 · 3月2日

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts

Arxiv

0+阅读 · 3月1日

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Arxiv

0+阅读 · 2月28日

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Arxiv

0+阅读 · 2月24日

FAST-Prefill: FPGA Accelerated Sparse Attention for Long Context LLM Prefill

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

9+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

3+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

5+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

7+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

9+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

9+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

专知会员服务

8+阅读 · 5月17日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

专知会员服务

38+阅读 · 2024年1月7日

【白皮书】从头训练大型语言模型LLM最佳实践

【白皮书】从头训练大型语言模型LLM最佳实践

专知会员服务

150+阅读 · 2023年8月24日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

泡泡机器人SLAM

11+阅读 · 2018年8月22日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

相关论文

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

Arxiv

0+阅读 · 4月29日

ProTrain: Efficient LLM Training via Memory-Aware Techniques

Arxiv

0+阅读 · 4月20日

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Arxiv

0+阅读 · 4月2日

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Arxiv

0+阅读 · 3月24日

PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection

Arxiv

0+阅读 · 3月23日

OrbitFlow: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration

Arxiv

0+阅读 · 3月2日

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts

Arxiv

0+阅读 · 3月1日

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Arxiv

0+阅读 · 2月28日

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Arxiv

0+阅读 · 2月24日

FAST-Prefill: FPGA Accelerated Sparse Attention for Long Context LLM Prefill

Arxiv

0+阅读 · 2月24日

相关基金

非线性组合优化暑期学校暨学术前沿研讨会

国家自然科学基金

6+阅读 · 2017年6月30日

猪长链非编码RNA-ED1与miR-21的互作及其对骨骼肌生长发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

激光激活纳米线液相催化生长行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员