Dichotomy of Feature Learning and Unlearning: Fast-Slow Analysis on Neural Networks with Stochastic Gradient Descent - 专知论文

会员服务 ·

0

梯度 · 分析 · 神经网络 · 二分法 · 第二层 ·

Dichotomy of Feature Learning and Unlearning: Fast-Slow Analysis on Neural Networks with Stochastic Gradient Descent

翻译：特征学习与遗忘的二分法：基于随机梯度下降的神经网络快慢分析

Shota Imai,Sota Nishiyama,Masaaki Imaizumi

from arxiv, 40 pages

The dynamics of gradient-based training in neural networks often exhibit nontrivial structures; hence, understanding them remains a central challenge in theoretical machine learning. In particular, a concept of feature unlearning, in which a neural network progressively loses previously learned features over long training, has gained attention. In this study, we consider the infinite-width limit of a two-layer neural network updated with a large-batch stochastic gradient, then derive differential equations with different time scales, revealing the mechanism and conditions for feature unlearning to occur. Specifically, we utilize the fast-slow dynamics: while an alignment of first-layer weights develops rapidly, the second-layer weights develop slowly. The direction of a flow on a critical manifold, determined by the slow dynamics, decides whether feature unlearning occurs. We give numerical validation of the result, and derive theoretical grounding and scaling laws of the feature unlearning. Our results yield the following insights: (i) the strength of the primary nonlinear term in data induces the feature unlearning, and (ii) an initial scale of the second-layer weights mitigates the feature unlearning. Technically, our analysis utilizes Tensor Programs and the singular perturbation theory.

翻译：基于梯度的神经网络训练动态常呈现非平凡结构，理解这些动态因此成为理论机器学习领域的核心挑战。其中，特征遗忘这一概念——即神经网络在长期训练过程中逐渐丧失先前学习到的特征——已引起广泛关注。本研究考虑采用大批量随机梯度更新的两层神经网络在无限宽度极限下的行为，推导出具有不同时间尺度的微分方程，从而揭示特征遗忘发生的机制与条件。具体而言，我们利用快慢动力学：第一层权重的对齐快速形成，而第二层权重则缓慢演化。由慢动力学决定的临界流形上的流动方向决定了特征遗忘是否发生。我们通过数值实验验证了该结果，并推导了特征遗忘的理论依据与标度律。研究得出以下洞见：（一）数据中主要非线性项的强度会诱发特征遗忘；（二）第二层权重的初始尺度可缓解特征遗忘。在技术上，我们的分析运用了张量程序与奇异摄动理论。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

专知会员服务

26+阅读 · 2025年1月10日

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

专知会员服务

38+阅读 · 2024年7月12日

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

专知会员服务

64+阅读 · 2023年6月29日

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

专知会员服务

153+阅读 · 2022年12月22日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

专知会员服务

20+阅读 · 2020年5月14日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

专知

18+阅读 · 2021年5月8日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知

11+阅读 · 2020年2月23日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

下载 | 512页教程《神经网络与深度学习》，2018最新著作

下载 | 512页教程《神经网络与深度学习》，2018最新著作

机器学习算法与Python学习

50+阅读 · 2019年1月6日

专栏 | 浅析图卷积神经网络

专栏 | 浅析图卷积神经网络

机器之心

28+阅读 · 2018年7月4日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

【回顾】深度学习系列之二：卷积神经网络

【回顾】深度学习系列之二：卷积神经网络

AI研习社

20+阅读 · 2017年12月1日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

Phase Transitions for Feature Learning in Neural Networks

Arxiv

0+阅读 · 2月26日

Transfer Learning in Infinite Width Feature Learning Networks

Arxiv

0+阅读 · 2月24日

Study of Training Dynamics for Memory-Constrained Fine-Tuning

Arxiv

0+阅读 · 2月20日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月19日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月18日

A unified theory of feature learning in RNNs and DNNs

Arxiv

0+阅读 · 2月17日

Visualizing the loss landscapes of physics-informed neural networks

Arxiv

0+阅读 · 2月5日

Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit

Arxiv

0+阅读 · 2月4日

It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task

Arxiv

0+阅读 · 2月4日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

9+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

4+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

5+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

5+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

7+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

5+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

15+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

专知会员服务

26+阅读 · 2025年1月10日

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

专知会员服务

38+阅读 · 2024年7月12日

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

专知会员服务

64+阅读 · 2023年6月29日

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

深度学习算法发展简述，从DNN到Transformer再到ChatGPT

专知会员服务

153+阅读 · 2022年12月22日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

专知会员服务

20+阅读 · 2020年5月14日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

专知

18+阅读 · 2021年5月8日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知

11+阅读 · 2020年2月23日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

下载 | 512页教程《神经网络与深度学习》，2018最新著作

下载 | 512页教程《神经网络与深度学习》，2018最新著作

机器学习算法与Python学习

50+阅读 · 2019年1月6日

专栏 | 浅析图卷积神经网络

专栏 | 浅析图卷积神经网络

机器之心

28+阅读 · 2018年7月4日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

【回顾】深度学习系列之二：卷积神经网络

【回顾】深度学习系列之二：卷积神经网络

AI研习社

20+阅读 · 2017年12月1日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

相关论文

Phase Transitions for Feature Learning in Neural Networks

Arxiv

0+阅读 · 2月26日

Transfer Learning in Infinite Width Feature Learning Networks

Arxiv

0+阅读 · 2月24日

Study of Training Dynamics for Memory-Constrained Fine-Tuning

Arxiv

0+阅读 · 2月20日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月19日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月18日

A unified theory of feature learning in RNNs and DNNs

Arxiv

0+阅读 · 2月17日

Visualizing the loss landscapes of physics-informed neural networks

Arxiv

0+阅读 · 2月5日

Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit

Arxiv

0+阅读 · 2月4日

It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task

Arxiv

0+阅读 · 2月4日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员