Moonwalk: Inverse-Forward Differentiation - 专知论文

会员服务 ·

0

梯度 · 前向 · 反向传播 · 存储 · 雅可比矩阵 ·

Moonwalk: Inverse-Forward Differentiation

翻译：Moonwalk：逆向前向微分

Dmitrii Krylov,Armin Karamzade,Roy Fox

Backpropagation's main limitation is its need to store intermediate activations (residuals) during the forward pass, which restricts the depth of trainable networks. This raises a fundamental question: can we avoid storing these activations? We address this by revisiting the structure of gradient computation. Backpropagation computes gradients through a sequence of vector-Jacobian products, an operation that is generally irreversible. The lost information lies in the cokernel of each layer's Jacobian. We define submersive networks -- networks whose layer Jacobians have trivial cokernels -- in which gradients can be reconstructed exactly in a forward sweep without storing activations. For non-submersive layers, we introduce fragmental gradient checkpointing, which records only the minimal subset of residuals necessary to restore the cotangents erased by the Jacobian. Central to our approach is a novel operator, the vector-inverse-Jacobian product (vijp), which inverts gradient flow outside the cokernel. Our mixed-mode algorithm first computes input gradients with a memory-efficient reverse pass, then reconstructs parameter gradients in a forward sweep using the vijp, eliminating the need to store activations. We implement this method in Moonwalk and show that it matches backpropagation's runtime while training networks more than twice as deep under the same memory budget.

翻译：反向传播的主要限制在于，其在前向传播过程中需要存储中间激活值（残差），这限制了可训练网络的深度。由此引发一个根本性问题：我们能否避免存储这些激活值？为此，我们重新审视了梯度计算的结构。反向传播通过一系列向量-雅可比乘积运算计算梯度，而该运算通常是不可逆的。丢失的信息位于每层雅可比矩阵的余核中。我们定义了浸没式网络——即各层雅可比矩阵的余核均为平凡的网络——在此类网络中，无需存储激活值，即可通过一次前向扫描精确重构梯度。对于非浸没式层，我们引入了分段梯度检查点技术，仅记录恢复被雅可比矩阵擦除的余切向量所需的最少残差子集。该方法的核心在于一种新型算子——向量-逆雅可比乘积（vijp），其可在余核外部反转梯度流。我们的混合模式算法首先通过内存高效的反向传播计算输入梯度，随后利用vijp在前向扫描中重构参数梯度，从而消除了存储激活值的需求。我们在Moonwalk中实现了该方法，并证明其在相同内存预算下训练深度超过两倍的网络时，运行时间与反向传播相当。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【ETZH博士论文】深度神经网络的数学理解

【ETZH博士论文】深度神经网络的数学理解

专知会员服务

36+阅读 · 2025年4月27日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

专知会员服务

153+阅读 · 2022年12月22日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

康奈尔Nature论文：一种使用反向传播训练的深度物理神经网络

康奈尔Nature论文：一种使用反向传播训练的深度物理神经网络

专知会员服务

35+阅读 · 2022年2月3日

【ICML2021】动量残差神经网络

专知会员服务

31+阅读 · 2021年7月19日

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

专知会员服务

26+阅读 · 2020年3月27日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

【微软&CMU】后向特征校正，深度学习如何深度学习？Backward Feature Correction: How Deep Learning Performs Deep Learning

专知会员服务

13+阅读 · 2020年1月18日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

一文搞懂反向传播

一文搞懂反向传播

机器学习与推荐算法

18+阅读 · 2020年3月12日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

深入卷积神经网络背后的数学原理

深入卷积神经网络背后的数学原理

人工智能学家

10+阅读 · 2019年4月26日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

CNN 反向传播算法推导

CNN 反向传播算法推导

统计学习与视觉计算组

30+阅读 · 2017年12月29日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

海洋一次波与多次波联合最小二乘逆时偏移

国家自然科学基金

1+阅读 · 2015年12月31日

分数阶偏微分方程的不变流形

国家自然科学基金

0+阅读 · 2015年12月31日

隐度条件下图的哈密尔顿圈

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

Training Non-Differentiable Networks via Optimal Transport

Arxiv

0+阅读 · 5月3日

Curl Descent: Non-Gradient Learning Dynamics with Sign-Diverse Plasticity

Arxiv

0+阅读 · 4月28日

Too Sharp, Too Sure: When Calibration Follows Curvature

Arxiv

0+阅读 · 4月22日

SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion

Arxiv

0+阅读 · 4月20日

Selectivity and Shape in the Design of Forward-Forward Goodness Functions

Arxiv

0+阅读 · 4月16日

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

Arxiv

0+阅读 · 4月16日

No More Guessing: a Verifiable Gradient Inversion Attack in Federated Learning

Arxiv

0+阅读 · 4月16日

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Arxiv

0+阅读 · 4月14日

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

Arxiv

0+阅读 · 3月17日

Backdoor Directions in Vision Transformers

Arxiv

0+阅读 · 3月11日

VIP会员

文章信息

相关主题

雅可比矩阵

最新内容

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

4+阅读 · 6月12日

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

14+阅读 · 6月12日

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

5+阅读 · 6月12日

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

11+阅读 · 6月12日

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

7+阅读 · 6月12日

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

11+阅读 · 6月12日

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

10+阅读 · 6月12日

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

6+阅读 · 6月12日

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

5+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

6+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

8+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

17+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

16+阅读 · 6月11日

相关VIP内容

【ETZH博士论文】深度神经网络的数学理解

【ETZH博士论文】深度神经网络的数学理解

专知会员服务

36+阅读 · 2025年4月27日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

专知会员服务

153+阅读 · 2022年12月22日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

康奈尔Nature论文：一种使用反向传播训练的深度物理神经网络

康奈尔Nature论文：一种使用反向传播训练的深度物理神经网络

专知会员服务

35+阅读 · 2022年2月3日

【ICML2021】动量残差神经网络

专知会员服务

31+阅读 · 2021年7月19日

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

【论文推荐】逆问题，深度学习，对称性破缺，Inverse Problems, Deep Learning, and Symmetry Breaking

专知会员服务

26+阅读 · 2020年3月27日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

【微软&CMU】后向特征校正，深度学习如何深度学习？Backward Feature Correction: How Deep Learning Performs Deep Learning

专知会员服务

13+阅读 · 2020年1月18日

热门VIP内容

开通专知VIP会员享更多权益服务

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

乌克兰战场背后的新武器

相关资讯

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

一文搞懂反向传播

一文搞懂反向传播

机器学习与推荐算法

18+阅读 · 2020年3月12日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

深入卷积神经网络背后的数学原理

深入卷积神经网络背后的数学原理

人工智能学家

10+阅读 · 2019年4月26日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

CNN 反向传播算法推导

CNN 反向传播算法推导

统计学习与视觉计算组

30+阅读 · 2017年12月29日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

Training Non-Differentiable Networks via Optimal Transport

Arxiv

0+阅读 · 5月3日

Curl Descent: Non-Gradient Learning Dynamics with Sign-Diverse Plasticity

Arxiv

0+阅读 · 4月28日

Too Sharp, Too Sure: When Calibration Follows Curvature

Arxiv

0+阅读 · 4月22日

SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion

Arxiv

0+阅读 · 4月20日

Selectivity and Shape in the Design of Forward-Forward Goodness Functions

Arxiv

0+阅读 · 4月16日

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

Arxiv

0+阅读 · 4月16日

No More Guessing: a Verifiable Gradient Inversion Attack in Federated Learning

Arxiv

0+阅读 · 4月16日

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Arxiv

0+阅读 · 4月14日

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

Arxiv

0+阅读 · 3月17日

Backdoor Directions in Vision Transformers

Arxiv

0+阅读 · 3月11日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

海洋一次波与多次波联合最小二乘逆时偏移

国家自然科学基金

1+阅读 · 2015年12月31日

分数阶偏微分方程的不变流形

国家自然科学基金

0+阅读 · 2015年12月31日

隐度条件下图的哈密尔顿圈

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员