Continual learning, the ability of a model to adapt to an ongoing sequence of tasks without forgetting earlier ones, is a central goal of artificial intelligence. To better understand its underlying mechanisms, we study the limitations of continual learning in a tractable yet representative setting. Specifically, we analyze one-hidden-layer quadratic neural networks trained by gradient descent on a sequence of XOR-cluster datasets with Gaussian noise, where different tasks correspond to clusters with orthogonal means. Our analysis is based on a tight characterization of gradient descent dynamics for the training loss, which yields explicit bounds on the rate of train-time forgetting as functions of the number of iterations, sample size, number of tasks, and hidden-layer width. We then leverage an algorithmic stability framework to bound the generalization gap, leading to corresponding guarantees on test-time forgetting. Together, our results provide the first closed-form guarantees for forgetting in continual learning with neural networks and show how key problem parameters jointly govern forgetting dynamics. Numerical experiments corroborate our theoretical results.


翻译:持续学习,即模型能够适应持续的任务序列而不遗忘先前任务的能力,是人工智能的核心目标。为深入理解其基本机制,我们在可处理但具有代表性的场景中研究了持续学习的局限性。具体而言,我们分析了由梯度下降训练的单隐藏层二次神经网络,该网络处理一系列带有高斯噪声的XOR聚类数据集,其中不同任务对应正交均值的聚类。我们的分析基于对训练损失梯度下降动态的严格刻画,从而得到了训练阶段遗忘率作为迭代次数、样本量、任务数和隐藏层宽度函数的显式边界。随后,我们利用算法稳定性框架界定了泛化差距,进而给出测试阶段遗忘的相应保证。综合而言,我们的研究成果首次为神经网络持续学习中的遗忘现象提供了封闭形式保证,揭示了关键问题参数如何共同支配遗忘动态。数值实验验证了我们的理论结果。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
持续学习的研究进展与趋势
专知会员服务
46+阅读 · 2024年3月8日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
最新《计算机视觉持续学习进展》综述论文,22页pdf
专知会员服务
74+阅读 · 2021年9月25日
【Alma Mate博士论文】深度架构持续学习,附150页pdf与Slides
专知会员服务
47+阅读 · 2020年11月18日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
89+阅读 · 2020年9月6日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
深度学习(deep learning)发展史
机器学习算法与Python学习
12+阅读 · 2018年3月19日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 3月29日
Recent advances in deep learning theory
Arxiv
52+阅读 · 2020年12月20日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员