Modern frameworks for training large foundation models (LFMs) employ dataloaders in a data-parallel manner, with each loader processing a disjoint subset of training data. When preparing data for LFM training that originates from multiple, distinct sources, two fundamental challenges arise. First, due to the quadratic computational complexity of the attention operator, the non-uniform sample distribution over data-parallel ranks leads to significant workload imbalance among dataloaders, degrading the training efficiency. Second, supporting diverse data sources requires per-dataset file access states that are redundantly replicated across parallel loaders, consuming excessive memory. This also hinders dynamic data mixing (e.g., curriculum learning) and causes redundant access/memory overhead in hybrid parallelism. We present MegaScale-Data, an industrial-grade distributed data loading architecture for multisource LFMs training, with three key innovations: (1) Disaggregated data preprocessing via role-specific actors (Source Loaders/Data Constructors) to eliminate source and parallelism redundant data access and ensure multisource scalability. (2) Centralized and declarative data plane for load-time multisource orchestration, such as long-short context, multimodality, and curriculum learning. (3) Multi-level auto-partitioning and scaling mechanism for source loaders under heterogeneous preprocessing costs. We also contribute our designs and operational experience in deployment and fault tolerance. MegaScale-Data achieves up to: (1) 4.5x end-to-end training throughput improvement, and (2) 13.5x reduction in CPU memory usage.


翻译:现代大规模基础模型(LFM)训练框架通常以数据并行的方式使用数据加载器,每个加载器处理训练数据的一个不相交子集。当为源自多个不同数据源的LFM训练准备数据时,会出现两个基本挑战。首先,由于注意力算子的二次计算复杂度,数据并行进程间非均匀的样本分布会导致数据加载器之间显著的工作负载不平衡,从而降低训练效率。其次,支持多样化的数据源需要为每个数据集维护文件访问状态,这些状态在并行加载器之间被冗余复制,消耗了过多的内存。这也阻碍了动态数据混合(例如课程学习),并在混合并行中导致冗余的访问/内存开销。我们提出了MegaScale-Data,一个面向多源LFM训练的工业级分布式数据加载架构,包含三项关键创新:(1) 通过角色特定的执行器(源加载器/数据构造器)进行解耦的数据预处理,以消除源和并行化带来的冗余数据访问,并确保多源可扩展性。(2) 集中式、声明式的数据平面,用于加载时多源编排,例如长-短上下文、多模态和课程学习。(3) 针对异构预处理成本的源加载器,采用多级自动分区与扩展机制。我们还贡献了在部署和容错方面的设计及运维经验。MegaScale-Data实现了高达:(1) 4.5倍的端到端训练吞吐量提升,以及(2) 13.5倍的CPU内存使用量减少。

0
下载
关闭预览

相关内容

《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
【MIT博士论文】数据高效强化学习,176页pdf
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月10日
VIP会员
最新内容
无人机在美以伊战争中的关键启示(印度视角)
专知会员服务
0+阅读 · 今天7:33
美军夺取伊朗离岸岛屿分析:高风险,低收益
专知会员服务
7+阅读 · 4月10日
将生成式人工智能整合进军事战术决策中
专知会员服务
10+阅读 · 4月10日
美国2026最新发布《人工智能国家政策框架》
专知会员服务
8+阅读 · 4月10日
大模型错因诊断分析
专知会员服务
6+阅读 · 4月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员