The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.


翻译:过去几十年间,机器学习算法设计取得了显著进展——从早期针对特定任务的浅层模型,到更通用的深度大语言模型(LLMs)。尽管现有模型在需要即时预测或上下文学习的任务中展现出良好性能,但它们仍缺乏持续学习的能力,无法将时间维度上的上下文知识有效迁移至长期参数。受人类学习过程启发,我们提出一种"睡眠"范式,使模型能够持续学习,通过重放将短期脆弱知识蒸馏为稳定长期记忆,并借助"梦境"过程实现递归式自我提升。具体而言,睡眠包含两个阶段:(1)记忆巩固:一种称为"知识播种"的自上而下蒸馏过程——将较小自体的记忆蒸馏至更大网络,在保留知识的同时提升容量。作为概念验证,我们提出面向知识播种的新型广义蒸馏方法(即基于强化学习的模仿学习与同策略蒸馏的融合);(2)梦境:自我改进阶段,模型利用强化学习自发生成包含课程学习结构的合成数据,无需人类监督即可演练新知识并优化既有能力。我们在长程任务、持续学习、知识融合及少样本泛化任务上的实验充分验证了睡眠阶段的重要性。

0
下载
关闭预览

相关内容

大语言模型持续学习:方法、挑战与机遇
专知会员服务
21+阅读 · 3月16日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
大语言模型的终身学习综述
专知会员服务
76+阅读 · 2024年6月15日
大模型如何迭代?北大等《大型语言模型自我进化》综述
专题综述 | 大语言模型中的知识生命周期
专知会员服务
60+阅读 · 2024年4月16日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 5月25日
Arxiv
21+阅读 · 2023年7月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员