Training Time Prediction for Mixed Precision-based Distributed Training - 专知论文

会员服务 ·

0

精度 · 混合 · 分布式训练 · 度分布 · 分布式深度学习 ·

Training Time Prediction for Mixed Precision-based Distributed Training

翻译：基于混合精度分布式训练的训练时间预测

Minchul Kang,Changyong Shin,Jinwoo Jeong,Hyunho Lee,Younghun Go,Gyeongmin Kim,Gyeongsik Yang,Chuck Yoo

Accurate prediction of training time in distributed deep learning is crucial for resource allocation, cost estimation, and job scheduling. We observe that the floating-point precision setting is a key determinant of training time, leading to training time variations of ~2.4x over its minimum. However, existing studies on distributed training time prediction rely on static model computation graphs that do not capture precision variations, including mixed precision. According to our experiments, training time prediction without considering precision results in significant prediction errors - reaching up to 147.85% in mean absolute percentage error (MAPE). To address this issue, we propose a precision-aware distributed training time predictor that achieves robust accuracy across diverse precision settings, including mixed precision, with 9.8% MAPE.

翻译：在分布式深度学习中，准确预测训练时间对于资源分配、成本估算和作业调度至关重要。我们观察到，浮点数精度设置是训练时间的决定性因素，导致训练时间相对于其最小值存在约2.4倍的变化。然而，现有的分布式训练时间预测研究依赖于静态模型计算图，无法捕捉精度变化（包括混合精度）。根据我们的实验，不考虑精度的训练时间预测会导致显著的预测误差——平均绝对百分比误差（MAPE）高达147.85%。为解决这一问题，我们提出了一种精度感知的分布式训练时间预测器，该预测器在多种精度设置（包括混合精度）下均能实现稳健的准确性，MAPE仅为9.8%。

0

相关内容

《深度学习在时间序列预测中的应用：综述》

《深度学习在时间序列预测中的应用：综述》

专知会员服务

29+阅读 · 2025年3月14日

图深度学习在时间序列处理中的应用：预测、重构与分析

图深度学习在时间序列处理中的应用：预测、重构与分析

专知会员服务

35+阅读 · 2024年11月30日

深度学习和基础模型在时间序列预测中的综述

深度学习和基础模型在时间序列预测中的综述

专知会员服务

50+阅读 · 2024年1月26日

时序挖掘如何预训练？华南理工最新《时间序列预训练模型》综述，29页pdf详述时序预训练方法体系

时序挖掘如何预训练？华南理工最新《时间序列预训练模型》综述，29页pdf详述时序预训练方法体系

专知会员服务

85+阅读 · 2023年5月22日

【Google-BryanLim等】可解释深度学习时序预测

【Google-BryanLim等】可解释深度学习时序预测

专知会员服务

64+阅读 · 2021年12月19日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

专知会员服务

174+阅读 · 2020年5月1日

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

专知会员服务

142+阅读 · 2020年4月30日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

专知

28+阅读 · 2022年3月29日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

荐文 | 时序预测中的深度学习：以电力负载预测为例

荐文 | 时序预测中的深度学习：以电力负载预测为例

德先生

32+阅读 · 2019年9月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

基于LSTM深层神经网络的时间序列预测

基于LSTM深层神经网络的时间序列预测

论智

22+阅读 · 2018年9月4日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

ADS-B大数据环境下的机场滑行时间预测及优化关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

ENTIRE: Learning-based Volume Rendering Time Prediction

Arxiv

0+阅读 · 4月20日

TempusBench: An Evaluation Framework for Time-Series Forecasting

Arxiv

0+阅读 · 4月16日

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

Arxiv

0+阅读 · 4月15日

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Arxiv

0+阅读 · 4月14日

Joint Clustering and Prediction of the Quality of Service in Vehicular Cellular Networks

Arxiv

0+阅读 · 4月14日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 4月2日

Energy Score-Guided Neural Gaussian Mixture Model for Predictive Uncertainty Quantification

Arxiv

0+阅读 · 3月29日

On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry

Arxiv

0+阅读 · 3月29日

Algorithms with Calibrated Machine Learning Predictions

Arxiv

0+阅读 · 3月25日

Flow-based Conformal Prediction for Multi-dimensional Time Series

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

分布式训练

分布式深度学习

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

《深度学习在时间序列预测中的应用：综述》

《深度学习在时间序列预测中的应用：综述》

专知会员服务

29+阅读 · 2025年3月14日

图深度学习在时间序列处理中的应用：预测、重构与分析

图深度学习在时间序列处理中的应用：预测、重构与分析

专知会员服务

35+阅读 · 2024年11月30日

深度学习和基础模型在时间序列预测中的综述

深度学习和基础模型在时间序列预测中的综述

专知会员服务

50+阅读 · 2024年1月26日

时序挖掘如何预训练？华南理工最新《时间序列预训练模型》综述，29页pdf详述时序预训练方法体系

时序挖掘如何预训练？华南理工最新《时间序列预训练模型》综述，29页pdf详述时序预训练方法体系

专知会员服务

85+阅读 · 2023年5月22日

【Google-BryanLim等】可解释深度学习时序预测

【Google-BryanLim等】可解释深度学习时序预测

专知会员服务

64+阅读 · 2021年12月19日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

专知会员服务

174+阅读 · 2020年5月1日

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

专知会员服务

142+阅读 · 2020年4月30日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

专知

28+阅读 · 2022年3月29日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

荐文 | 时序预测中的深度学习：以电力负载预测为例

荐文 | 时序预测中的深度学习：以电力负载预测为例

德先生

32+阅读 · 2019年9月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

基于LSTM深层神经网络的时间序列预测

基于LSTM深层神经网络的时间序列预测

论智

22+阅读 · 2018年9月4日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

ENTIRE: Learning-based Volume Rendering Time Prediction

Arxiv

0+阅读 · 4月20日

TempusBench: An Evaluation Framework for Time-Series Forecasting

Arxiv

0+阅读 · 4月16日

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

Arxiv

0+阅读 · 4月15日

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Arxiv

0+阅读 · 4月14日

Joint Clustering and Prediction of the Quality of Service in Vehicular Cellular Networks

Arxiv

0+阅读 · 4月14日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 4月2日

Energy Score-Guided Neural Gaussian Mixture Model for Predictive Uncertainty Quantification

Arxiv

0+阅读 · 3月29日

On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry

Arxiv

0+阅读 · 3月29日

Algorithms with Calibrated Machine Learning Predictions

Arxiv

0+阅读 · 3月25日

Flow-based Conformal Prediction for Multi-dimensional Time Series

Arxiv

0+阅读 · 3月20日

相关基金

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

ADS-B大数据环境下的机场滑行时间预测及优化关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员