One of the biggest missing capabilities in current AI systems is the ability to learn continuously after deployment. Implementing such continually learning systems have several challenges, one of which is the large memory requirement of gradient-based algorithms that are used to train state-of-the-art LLMs. Evolutionary Strategies (ES) have recently re-emerged as a gradient-free alternative to traditional learning algorithms and have shown encouraging performance on specific tasks in LLMs. In this paper, we perform a comprehensive analysis of ES and specifically evaluate its forgetting curves when training for an increasing number of update steps. We first find that ES is able to reach performance numbers close to GRPO for math and reasoning tasks with a comparable compute budget. However, and most importantly for continual learning, the performance gains in ES is accompanied by significant forgetting of prior abilities, limiting its applicability for training models online. We also explore the reason behind this behavior and show that the updates made using ES are much less sparse and have orders of magnitude larger $\ell_2$ norm compared to corresponding GRPO updates, explaining the contrasting forgetting curves between the two algorithms. With this study, we aim to highlight the issue of forgetting in gradient-free algorithms like ES and hope to inspire future work to mitigate these issues.


翻译:当前人工智能系统最大的能力缺失之一在于部署后无法持续学习。实现此类持续学习系统面临若干挑战,其中梯度下降算法需要大量内存是主要瓶颈之一,而该算法正是训练最先进大型语言模型的主流方法。进化策略作为传统学习算法的无梯度替代方案近期重新受到关注,并在大型语言模型的特定任务中展现出令人鼓舞的性能。本文对进化策略进行全面分析,重点评估其在持续增加训练步数时的遗忘曲线。我们首先发现,在可比较的计算预算下,进化策略在数学与推理任务上能达到接近GRPO的性能水平。然而,对于持续学习至关重要的发现是:进化策略的性能提升伴随着对先前能力的显著遗忘,这限制了其在在线模型训练中的应用。我们进一步探究了该现象的内在机制,结果表明相较于GRPO的更新,进化策略产生的更新具有更低的稀疏性,且其$\ell_2$范数量级显著更大,这解释了两类算法遗忘曲线的差异。本研究旨在揭示进化策略等无梯度算法的遗忘问题,以期推动未来研究探索缓解这些问题的有效途径。

0
下载
关闭预览

相关内容

《大语言模型及其对生物武器研发与使用的潜在影响》
专知会员服务
13+阅读 · 2025年11月26日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
大语言模型的终身学习综述
专知会员服务
75+阅读 · 2024年6月15日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大模型如何迭代?北大等《大型语言模型自我进化》综述
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关VIP内容
《大语言模型及其对生物武器研发与使用的潜在影响》
专知会员服务
13+阅读 · 2025年11月26日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
大语言模型的终身学习综述
专知会员服务
75+阅读 · 2024年6月15日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大模型如何迭代?北大等《大型语言模型自我进化》综述
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
相关资讯
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员