Pipeline parallelism enables training models that exceed single-device memory, but practical throughput remains limited by pipeline bubbles. Although parameter freezing can improve training throughput by adaptively skipping backward computation, existing methods often over-freeze parameters, resulting in unnecessary accuracy degradation. To address this issue, we propose TimelyFreeze, which models the pipeline schedule as a directed acyclic graph and solves a linear program to compute optimal freeze ratios that minimize batch execution time under accuracy constraints. Experiments show that TimelyFreeze achieves up to 40% training throughput improvement on LLaMA-8B with comparable accuracy. Overall, it enables faster large-scale model training without compromising convergence and generalizes across diverse pipeline-parallel settings.


翻译:流水线并行使得训练超出单设备内存容量的模型成为可能,但实际吞吐量仍受限于流水线气泡。尽管参数冻结能够通过自适应跳过反向计算来提升训练吞吐量,现有方法往往过度冻结参数,导致不必要的精度损失。为解决这一问题,我们提出TimelyFreeze,该方法将流水线调度建模为有向无环图,并通过求解线性规划问题来计算最优冻结比例,从而在精度约束下最小化批次执行时间。实验表明,TimelyFreeze在LLaMA-8B模型上实现了最高40%的训练吞吐量提升,同时保持相当的精度。总体而言,该方法能够在保证收敛性的前提下加速大规模模型训练,并适用于多种流水线并行配置。

0
下载
关闭预览

相关内容

【ICLR2025】DynaPrompt:动态测试时提示调优
专知会员服务
10+阅读 · 2025年2月2日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICLR2025】DynaPrompt:动态测试时提示调优
专知会员服务
10+阅读 · 2025年2月2日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员