DIP: Efficient Large Multimodal Model Training with Dynamic Interleaved Pipeline - 专知论文

会员服务 ·

0

模态 · 多模 · 多模态 · 负载 · 大型多模态模型 ·

DIP: Efficient Large Multimodal Model Training with Dynamic Interleaved Pipeline

翻译：DIP：面向高效大型多模态模型训练的动态交错流水线

Zhenliang Xue,Hanpeng Hu,Xing Chen,Yimin Jiang,Yixin Song,Zeyu Mi,Yibo Zhu,Daxin Jiang,Yubin Xia,Haibo Chen

from arxiv, To be published in ASPLOS'26

Large multimodal models (LMMs) have demonstrated excellent capabilities in both understanding and generation tasks with various modalities. While these models can accept flexible combinations of input data, their training efficiency suffers from two major issues: pipeline stage imbalance caused by heterogeneous model architectures, and training data dynamicity stemming from the diversity of multimodal data. In this paper, we present DIP, a dynamic and modality-aware pipeline scheduling framework designed for LMM training. DIP tackles the challenge of dynamic imbalance via two key techniques: (1) separating computations of different modalities into dedicated pipeline segments to balance workloads within a continuous set of stages; (2) dynamically splitting input data into finer-grained, modality-specific sub-microbatches to balance workloads across these segments. By asynchronously generating pipeline schedules on idle CPU resources during training, DIP dynamically tailors stage executions to each input batch without stalling the training process. We validate DIP on a diverse set of five LMMs, ranging from 12B to 94B parameters and including vision-language and diffusion models. Experimental results show that our system achieves up to 97.3% higher throughput compared to state-of-the-art systems, demonstrating strong adaptability to fluctuating multimodal training workloads.

翻译：大型多模态模型（LMM）在各类模态的理解与生成任务中展现出卓越性能。尽管这类模型可接受灵活组合的输入数据，其训练效率却面临两大问题：异构模型架构导致的流水线阶段失衡，以及多模态数据多样性引发的训练数据动态性。本文提出DIP——一种面向LMM训练的、具备动态模态感知能力的流水线调度框架。DIP通过两项关键技术应对动态失衡挑战：（1）将不同模态的计算分离至专用流水线段，以在连续阶段集合内实现工作负载均衡；（2）动态将输入数据拆分为更细粒度的、按模态划分的微批次，以实现跨段负载均衡。通过利用训练过程中的空闲CPU资源异步生成流水线调度方案，DIP可在不中断训练进程的前提下，为每个输入批次动态定制阶段执行方案。我们在涵盖12B至94B参数量的五个不同LMM上验证了DIP，包括视觉-语言模型与扩散模型。实验结果表明，相较于现有最优系统，本系统可实现高达97.3%的吞吐量提升，展现了其对波动的多模态训练工作负载的强适应性。

0

相关内容

Video-LMM后训练：多模态大模型的视频推理深度解析

Video-LMM后训练：多模态大模型的视频推理深度解析

专知会员服务

16+阅读 · 2025年10月7日

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

专知会员服务

15+阅读 · 2025年6月13日

【博士论文】高效且有效的基础大型多模态模型学习

【博士论文】高效且有效的基础大型多模态模型学习

专知会员服务

41+阅读 · 2024年10月21日

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

专知会员服务

31+阅读 · 2024年9月13日

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

专知会员服务

43+阅读 · 2024年8月30日

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

专知会员服务

27+阅读 · 2024年5月11日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

专知会员服务

104+阅读 · 2023年2月24日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于周期曲面的异构多孔功能结构跨尺度数字化特征建模

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Arxiv

0+阅读 · 4月30日

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 4月27日

Optimizing High-Throughput Distributed Data Pipelines for Reproducible Deep Learning at Scale

Arxiv

0+阅读 · 4月23日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

ProTrain: Efficient LLM Training via Memory-Aware Techniques

Arxiv

0+阅读 · 4月20日

Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

Arxiv

0+阅读 · 4月13日

Understanding and Optimizing Multi-Stage AI Inference Pipelines

Arxiv

0+阅读 · 3月20日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications

Arxiv

20+阅读 · 2023年2月1日

VIP会员

文章信息

相关主题

大型多模态模型

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

Video-LMM后训练：多模态大模型的视频推理深度解析

Video-LMM后训练：多模态大模型的视频推理深度解析

专知会员服务

16+阅读 · 2025年10月7日

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

专知会员服务

15+阅读 · 2025年6月13日

【博士论文】高效且有效的基础大型多模态模型学习

【博士论文】高效且有效的基础大型多模态模型学习

专知会员服务

41+阅读 · 2024年10月21日

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

专知会员服务

31+阅读 · 2024年9月13日

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

专知会员服务

43+阅读 · 2024年8月30日

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

专知会员服务

27+阅读 · 2024年5月11日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

专知会员服务

104+阅读 · 2023年2月24日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关论文

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Arxiv

0+阅读 · 4月30日

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 4月27日

Optimizing High-Throughput Distributed Data Pipelines for Reproducible Deep Learning at Scale

Arxiv

0+阅读 · 4月23日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

ProTrain: Efficient LLM Training via Memory-Aware Techniques

Arxiv

0+阅读 · 4月20日

Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

Arxiv

0+阅读 · 4月13日

Understanding and Optimizing Multi-Stage AI Inference Pipelines

Arxiv

0+阅读 · 3月20日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications

Arxiv

20+阅读 · 2023年2月1日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于周期曲面的异构多孔功能结构跨尺度数字化特征建模

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员