Today's LLM (pre-) training and research workflows typically allocate a significant amount of compute to large-scale ablation studies. Despite the substantial compute costs of these ablations, existing open-source frameworks provide limited tooling for these experiments, often forcing researchers to write their own wrappers and scripts. We propose Modalities, an end-to-end PyTorch-native framework that integrates data-driven LLM research with large-scale model training from two angles. Firstly, by integrating state-of-the-art parallelization strategies, it enables both efficient pretraining and systematic ablations at trillion-token and billion-parameter scale. Secondly, Modalities adopts modular design with declarative, self-contained configuration, enabling reproducibility and extensibility levels that are difficult to achieve out-of-the-box with existing LLM training frameworks.


翻译:当前LLM(预)训练与研究流程通常将大量算力分配至大规模消融实验。尽管这些消融实验的计算成本高昂,现有开源框架为此类实验提供的工具支持有限,往往迫使研究人员自行编写封装脚本。我们提出Modalities——一个端到端的PyTorch原生框架,该框架从两个维度将数据驱动的LLM研究与大规模模型训练相结合。首先,通过集成前沿并行化策略,它能够在万亿token与十亿参数规模上同时实现高效预训练与系统性消融实验。其次,Modalities采用模块化设计配合声明式自包含配置,其可复现性与可扩展性水平是现有LLM训练框架难以开箱即达的。

0
下载
关闭预览

相关内容

小规模训练指南:打造世界级大语言模型的关键方法
专知会员服务
24+阅读 · 2025年10月31日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
129+阅读 · 2024年6月13日
【白皮书】从头训练大型语言模型LLM最佳实践
专知会员服务
150+阅读 · 2023年8月24日
快速上手笔记,PyTorch模型训练实用教程(附代码)
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员