We study the common continual learning setup where an overparameterized model is sequentially fitted to a set of jointly realizable tasks. We analyze forgetting, defined as the loss on previously seen tasks, after $k$ iterations. For continual linear models, we prove that fitting a task is equivalent to a single stochastic gradient descent (SGD) step on a modified objective. We develop novel last-iterate SGD upper bounds in the realizable least squares setup and leverage them to derive new results for continual learning. Focusing on random orderings over $T$ tasks, we establish universal forgetting rates, whereas existing rates depend on problem dimensionality or complexity and become prohibitive in highly overparameterized regimes. In continual regression with replacement, we improve the best existing rate from $O((d-\bar{r})/k)$ to $O(\min(1/\sqrt[4]{k}, \sqrt{(d-\bar{r})}/k, \sqrt{T\bar{r}}/k))$, where $d$ is the dimensionality and $\bar{r}$ the average task rank. Furthermore, we establish the first rate for random task orderings without replacement. The resulting rate $O(\min(1/\sqrt[4]{T},\, (d-\bar{r})/T))$ shows that randomization alone, without task repetition, prevents catastrophic forgetting in sufficiently long task sequences. Finally, we prove a matching $O(1/\sqrt[4]{k})$ forgetting rate for continual linear classification on separable data. Our universal rates extend to broader methods, such as block Kaczmarz and POCS, illuminating their loss convergence under i.i.d. and single-pass orderings.


翻译:本研究探讨了常见的持续学习场景,其中过参数化模型被顺序拟合至一组联合可实现的多个任务。我们分析了在经历$k$次迭代后,先前已见任务上的损失所定义的遗忘现象。针对持续线性模型,我们证明了拟合单个任务等价于在修正目标函数上执行单步随机梯度下降(SGD)。我们在可实现的最小二乘设定中建立了新颖的最终迭代SGD上界,并利用这些结果推导出持续学习的新理论。针对$T$个任务的随机排序场景,我们建立了普适的遗忘率,而现有理论中的遗忘率依赖于问题维度或复杂度,在高度过参数化场景中会变得不可行。在带替换的持续回归任务中,我们将现有最优收敛率从$O((d-\bar{r})/k)$提升至$O(\min(1/\sqrt[4]{k}, \sqrt{(d-\bar{r})}/k, \sqrt{T\bar{r}}/k))$,其中$d$为数据维度,$\bar{r}$为任务平均秩。此外,我们首次建立了无替换随机任务排序场景的收敛率。所得收敛率$O(\min(1/\sqrt[4]{T},\, (d-\bar{r})/T))$表明,仅通过随机化处理(无需任务重复)即可在足够长的任务序列中避免灾难性遗忘。最后,我们证明了在可分数据上的持续线性分类任务中匹配的$O(1/\sqrt[4]{k})$遗忘率。我们的普适收敛率可扩展至更广泛的方法,例如块Kaczmarz算法和投影到凸集法(POCS),从而阐明这些方法在独立同分布和单次遍历排序下的损失收敛特性。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【ICML2024】基于正则化的持续学习的统计理论
专知会员服务
21+阅读 · 2024年6月11日
持续学习的研究进展与趋势
专知会员服务
46+阅读 · 2024年3月8日
《图持续学习》综述
专知会员服务
33+阅读 · 2024年2月20日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
84+阅读 · 2022年10月19日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员