Sparse Iso-FLOP Transformations for Maximizing Training Efficiency - 专知论文

会员服务 ·

0

稀疏 · 训练效率 · 稀疏性 · 超参数 · 稀疏权重 ·

2023 年 3 月 25 日

Sparse Iso-FLOP Transformations for Maximizing Training Efficiency

翻译：稀疏等FLOP变换用于最大化训练效率

Shreyas Saxena,Vithursan Thangarasa,Abhay Gupta,Sean Lie

from arxiv, Code available from Cerebras Systems: https://github.com/CerebrasResearch/Sparse-IFT

Recent works have explored the use of weight sparsity to improve the training efficiency (test accuracy w.r.t training FLOPs) of deep neural networks (DNNs). These works aim to reduce training FLOPs but training with sparse weights often leads to accuracy loss or requires longer training schedules, making the resulting training efficiency less clear. In contrast, we focus on using sparsity to increase accuracy while using the same FLOPs as the dense model and show training efficiency gains through higher accuracy. In this work, we introduce Sparse-IFT, a family of Sparse Iso-FLOP Transformations which are used as drop-in replacements for dense layers to improve their representational capacity and FLOP efficiency. Each transformation is parameterized by a single hyperparameter (sparsity level) and provides a larger search space to find optimal sparse masks. Without changing any training hyperparameters, replacing dense layers with Sparse-IFT leads to significant improvements across computer vision (CV) and natural language processing (NLP) tasks, including ResNet-18 on ImageNet (+3.5%) and GPT-3 Small on WikiText-103 (-0.4 PPL), both matching larger dense model variants that use 2x or more FLOPs. To our knowledge, this is the first work to demonstrate the use of sparsity for improving the accuracy of dense models via a simple-to-use set of sparse transformations. Code is available at: https://github.com/CerebrasResearch/Sparse-IFT.

翻译：近期工作探索了利用权重稀疏性来提升深度神经网络（DNN）的训练效率（即测试准确率相对于训练FLOPs的度量）。这些工作旨在降低训练FLOPs，但稀疏权重训练常导致准确率下降或需要更长的训练计划，使得最终训练效率不够明确。与此不同，我们聚焦于在保持与稠密模型相同FLOPs的前提下，通过稀疏性提升准确率，并以更高准确率彰显训练效率增益。本文提出Sparse-IFT系列稀疏等FLOP变换（Sparse Iso-FLOP Transformations），可作为稠密层的即插即用替代，增强其表示能力与FLOP效率。每种变换由单超参数（稀疏度）参数化，提供更大搜索空间以寻找最优稀疏掩码。在无需更改任何训练超参数的情况下，将稠密层替换为Sparse-IFT可显著提升计算机视觉（CV）与自然语言处理（NLP）任务性能：包括ImageNet上的ResNet-18（+3.5%）与WikiText-103上的GPT-3 Small（-0.4 PPL），两者均匹配使用2倍或更多FLOPs的更大稠密模型变体。据我们所知，这是首个通过简单易用的稀疏变换集来证明利用稀疏性提升稠密模型准确率的工作。代码开源地址：https://github.com/CerebrasResearch/Sparse-IFT。

0

相关内容

JCIM丨DRlinker：深度强化学习优化片段连接设计

JCIM丨DRlinker：深度强化学习优化片段连接设计

专知会员服务

7+阅读 · 2022年12月9日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

21+阅读 · 2020年5月16日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

18+阅读 · 2020年3月3日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

机器之心

4+阅读 · 2022年9月25日

Gato之后，谷歌也推出「通才型」智能体Multi-Game Decision Transformers

Gato之后，谷歌也推出「通才型」智能体Multi-Game Decision Transformers

机器之心

1+阅读 · 2022年6月12日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

量子位

16+阅读 · 2019年3月22日

TorchSeg：基于pytorch的语义分割算法开源了

TorchSeg：基于pytorch的语义分割算法开源了

极市平台

20+阅读 · 2019年1月28日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

基于混合约束正则化的电阻抗成像反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

Serglycin调控TGF-β信号通路诱导EMT促进膀胱癌转移机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Cbl家族调控c-Met介导的非小细胞肺癌放疗抵抗机制的研究

国家自然科学基金

1+阅读 · 2014年12月31日

单细胞水平实时可视研究超声联合微泡介导质膜穿孔后修复的机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于交替方向乘子法的高效译码理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Calmodulin的N环和C环与心肌CaV1.2钙通道的多个结合位点交互作用介导其Ca2+依赖性失活的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

胰岛素经炎性体途径诱导VSMC转化为炎性表型细胞在动脉粥样硬化中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

稀疏近似逆预条件子的协同并行多级策略

国家自然科学基金

1+阅读 · 2011年12月31日

上皮－间质转化在IGF-1R介导的非小细胞肺癌EGFR-TKIs获得性耐药中的重要作用及机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

整合素β#20449;号通路在非小细胞肺癌EGFR TKI耐药中的作用

国家自然科学基金

0+阅读 · 2008年12月31日

Agent Heterogeneity Mediates Extremism in an Adaptive Social Network Model

Arxiv

0+阅读 · 2023年5月17日

Understanding the Initial Condensation of Convolutional Neural Networks

Arxiv

0+阅读 · 2023年5月17日

PMNet: Robust Pathloss Map Prediction via Supervised Learning

Arxiv

0+阅读 · 2023年5月16日

Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers

Arxiv

0+阅读 · 2023年5月16日

Models for information propagation on graphs

Arxiv

0+阅读 · 2023年5月12日

Phase transitions in the mini-batch size for sparse and dense neural networks

Arxiv

0+阅读 · 2023年5月12日

T-former: An Efficient Transformer for Image Inpainting

Arxiv

0+阅读 · 2023年5月12日

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks

Arxiv

14+阅读 · 2021年1月31日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

JCIM丨DRlinker：深度强化学习优化片段连接设计

JCIM丨DRlinker：深度强化学习优化片段连接设计

专知会员服务

7+阅读 · 2022年12月9日

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

21+阅读 · 2020年5月16日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

18+阅读 · 2020年3月3日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

机器之心

4+阅读 · 2022年9月25日

Gato之后，谷歌也推出「通才型」智能体Multi-Game Decision Transformers

Gato之后，谷歌也推出「通才型」智能体Multi-Game Decision Transformers

机器之心

1+阅读 · 2022年6月12日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

量子位

16+阅读 · 2019年3月22日

TorchSeg：基于pytorch的语义分割算法开源了

TorchSeg：基于pytorch的语义分割算法开源了

极市平台

20+阅读 · 2019年1月28日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

相关论文

Agent Heterogeneity Mediates Extremism in an Adaptive Social Network Model

Arxiv

0+阅读 · 2023年5月17日

Understanding the Initial Condensation of Convolutional Neural Networks

Arxiv

0+阅读 · 2023年5月17日

PMNet: Robust Pathloss Map Prediction via Supervised Learning

Arxiv

0+阅读 · 2023年5月16日

Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers

Arxiv

0+阅读 · 2023年5月16日

Models for information propagation on graphs

Arxiv

0+阅读 · 2023年5月12日

Phase transitions in the mini-batch size for sparse and dense neural networks

Arxiv

0+阅读 · 2023年5月12日

T-former: An Efficient Transformer for Image Inpainting

Arxiv

0+阅读 · 2023年5月12日

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks

Arxiv

14+阅读 · 2021年1月31日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

相关基金

基于混合约束正则化的电阻抗成像反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

Serglycin调控TGF-β信号通路诱导EMT促进膀胱癌转移机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Cbl家族调控c-Met介导的非小细胞肺癌放疗抵抗机制的研究

国家自然科学基金

1+阅读 · 2014年12月31日

单细胞水平实时可视研究超声联合微泡介导质膜穿孔后修复的机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于交替方向乘子法的高效译码理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Calmodulin的N环和C环与心肌CaV1.2钙通道的多个结合位点交互作用介导其Ca2+依赖性失活的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

胰岛素经炎性体途径诱导VSMC转化为炎性表型细胞在动脉粥样硬化中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

稀疏近似逆预条件子的协同并行多级策略

国家自然科学基金

1+阅读 · 2011年12月31日

上皮－间质转化在IGF-1R介导的非小细胞肺癌EGFR-TKIs获得性耐药中的重要作用及机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

整合素β#20449;号通路在非小细胞肺癌EGFR TKI耐药中的作用

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员