TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism - 专知论文

会员服务 ·

0

并行 · 自适应 · 精度 · 内存 · 损失 ·

TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism

翻译：TimelyFreeze：面向流水线并行的自适应参数冻结机制

Seonghye Cho,Jaemin Han,Hyunjin Kim,Euisoo Jung,Jae-Gil Lee

Pipeline parallelism enables training models that exceed single-device memory, but practical throughput remains limited by pipeline bubbles. Although parameter freezing can improve training throughput by adaptively skipping backward computation, existing methods often over-freeze parameters, resulting in unnecessary accuracy degradation. To address this issue, we propose TimelyFreeze, which models the pipeline schedule as a directed acyclic graph and solves a linear program to compute optimal freeze ratios that minimize batch execution time under accuracy constraints. Experiments show that TimelyFreeze achieves up to 40% training throughput improvement on LLaMA-8B with comparable accuracy. Overall, it enables faster large-scale model training without compromising convergence and generalizes across diverse pipeline-parallel settings.

翻译：流水线并行支持训练超出单设备内存容量的模型，但实际吞吐量仍受限于流水线气泡。尽管参数冻结可通过自适应跳过反向计算来提升训练吞吐量，现有方法往往过度冻结参数，导致不必要的精度损失。为解决该问题，本文提出TimelyFreeze方法，将流水线调度建模为有向无环图，并通过求解线性规划问题来计算最优冻结比例，从而在精度约束下最小化批次执行时间。实验表明，TimelyFreeze在LLaMA-8B模型上实现了最高40%的训练吞吐量提升，同时保持相当精度。总体而言，该方法能在不影响收敛性的前提下加速大规模模型训练，并适用于多种流水线并行场景。

0

相关内容

【ICLR2025】通过自适应熵感知优化实现稳健的多模态开放集测试时自适应

【ICLR2025】通过自适应熵感知优化实现稳健的多模态开放集测试时自适应

专知会员服务

10+阅读 · 2025年1月24日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

专知会员服务

18+阅读 · 2021年11月8日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

基于动态反馈的时滞非线性系统控制理论研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于滑模技术的线性参数变化系统的容错控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

切换线性中立时滞系统的量化反馈控制设计

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

冷冻空间软硬吸合面间湿空气呼吸效应机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

混流式水轮机调节系统的非线性有限时间控制

国家自然科学基金

0+阅读 · 2015年12月31日

具有输入时滞的柔性结构系统时滞辨识及自适应控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

自动化集装箱码头装卸作业的时空同步策略与优化方法

国家自然科学基金

1+阅读 · 2014年12月31日

Deep Reinforcement Learning-driven Edge Offloading for Latency-constrained XR pipelines

Arxiv

0+阅读 · 3月17日

Efficient and Flexible Multirate Temporal Adaptivity

Arxiv

0+阅读 · 3月10日

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Arxiv

0+阅读 · 3月3日

DriftLite: Lightweight Drift Control for Inference-Time Scaling of Diffusion Models

Arxiv

0+阅读 · 2月21日

LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights

LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights

Arxiv

0+阅读 · 2月19日

Depth Completion as Parameter-Efficient Test-Time Adaptation

Arxiv

0+阅读 · 2月16日

The Appeal and Reality of Recycling LoRAs with Adaptive Merging

Arxiv

0+阅读 · 2月12日

A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler

Arxiv

0+阅读 · 2月8日

Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation

Arxiv

0+阅读 · 2月3日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

0+阅读 · 46分钟前

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

1+阅读 · 今天14:33

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

1+阅读 · 今天14:08

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

1+阅读 · 今天13:55

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

2+阅读 · 今天13:53

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

0+阅读 · 今天13:42

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

0+阅读 · 今天13:46

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

0+阅读 · 今天13:43

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

1+阅读 · 今天13:17

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

10+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

9+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

8+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

14+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

7+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

9+阅读 · 4月18日

相关VIP内容

【ICLR2025】通过自适应熵感知优化实现稳健的多模态开放集测试时自适应

【ICLR2025】通过自适应熵感知优化实现稳健的多模态开放集测试时自适应

专知会员服务

10+阅读 · 2025年1月24日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

【NeurIPS2021】Spatial Ensemble：一种新颖的用于学生-老师框架的模型平滑机制

专知会员服务

18+阅读 · 2021年11月8日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

相关论文

Deep Reinforcement Learning-driven Edge Offloading for Latency-constrained XR pipelines

Arxiv

0+阅读 · 3月17日

Efficient and Flexible Multirate Temporal Adaptivity

Arxiv

0+阅读 · 3月10日

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Arxiv

0+阅读 · 3月3日

DriftLite: Lightweight Drift Control for Inference-Time Scaling of Diffusion Models

Arxiv

0+阅读 · 2月21日

LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights

LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights

Arxiv

0+阅读 · 2月19日

Depth Completion as Parameter-Efficient Test-Time Adaptation

Arxiv

0+阅读 · 2月16日

The Appeal and Reality of Recycling LoRAs with Adaptive Merging

Arxiv

0+阅读 · 2月12日

A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler

Arxiv

0+阅读 · 2月8日

Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation

Arxiv

0+阅读 · 2月3日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

相关基金

基于动态反馈的时滞非线性系统控制理论研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于滑模技术的线性参数变化系统的容错控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

切换线性中立时滞系统的量化反馈控制设计

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

冷冻空间软硬吸合面间湿空气呼吸效应机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

混流式水轮机调节系统的非线性有限时间控制

国家自然科学基金

0+阅读 · 2015年12月31日

具有输入时滞的柔性结构系统时滞辨识及自适应控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

自动化集装箱码头装卸作业的时空同步策略与优化方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员