Self-Distillation Enables Continual Learning - 专知论文

会员服务 ·

0

蒸馏 · 在线 · 自蒸馏 · 持续学习 · 知识 ·

Self-Distillation Enables Continual Learning

翻译：自蒸馏实现持续学习

Idan Shenfeld,Mehul Damani,Jonas Hübotter,Pulkit Agrawal

Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.

翻译：持续学习使模型能够获取新技能与知识而不损害现有能力，这仍然是基础模型面临的根本性挑战。虽然在线策略强化学习可以减少遗忘，但它需要明确的奖励函数，而这类函数通常难以获得。从专家示范中学习作为主要替代方案，目前主要由监督微调（SFT）主导，而SFT本质上是离线策略的。我们提出了自蒸馏微调（SDFT），这是一种直接从示范中进行在线策略学习的简单方法。SDFT利用情境学习，通过使用示范条件模型作为自身的教师，生成在线策略训练信号，从而在获取新技能的同时保持原有能力。在技能学习与知识获取任务中，SDFT始终优于SFT，在实现更高新任务准确率的同时，显著减少了灾难性遗忘。在序列学习实验中，SDFT使单一模型能够随时间累积多种技能且不发生性能衰退，从而确立了基于示范的在线策略蒸馏作为实现持续学习的实用路径。

0

相关内容

【ICML2025】用于可扩展持续强化学习的自组合策略

【ICML2025】用于可扩展持续强化学习的自组合策略

专知会员服务

12+阅读 · 2025年6月24日

持续学习的研究进展与趋势

持续学习的研究进展与趋势

专知会员服务

46+阅读 · 2024年3月8日

《图持续学习》综述

《图持续学习》综述

专知会员服务

45+阅读 · 2024年2月13日

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

专知会员服务

59+阅读 · 2023年5月5日

持续学习：研究综述

持续学习：研究综述

专知会员服务

83+阅读 · 2023年1月30日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知会员服务

37+阅读 · 2020年2月27日

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

专知会员服务

87+阅读 · 2019年11月24日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Unlocking [CLS] Features for Continual Post-Training

Arxiv

0+阅读 · 2月19日

Reinforcement Learning via Self-Distillation

Arxiv

0+阅读 · 2月16日

SAILS: Segment Anything with Incrementally Learned Semantics for Task-Invariant and Training-Free Continual Learning

Arxiv

0+阅读 · 2月16日

Experiential Reinforcement Learning

Arxiv

0+阅读 · 2月15日

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月8日

Learning to Continually Learn via Meta-learning Agentic Memory Designs

Arxiv

0+阅读 · 2月8日

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月2日

The Effect of Architecture During Continual Learning

Arxiv

0+阅读 · 1月27日

Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

Arxiv

0+阅读 · 1月21日

Continual Knowledge Adaptation for Reinforcement Learning

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

0+阅读 · 今天15:36

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

0+阅读 · 今天15:30

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

2+阅读 · 今天14:43

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

2+阅读 · 今天14:30

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

2+阅读 · 今天14:26

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

4+阅读 · 今天14:22

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

3+阅读 · 今天14:12

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

19+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

相关VIP内容

【ICML2025】用于可扩展持续强化学习的自组合策略

【ICML2025】用于可扩展持续强化学习的自组合策略

专知会员服务

12+阅读 · 2025年6月24日

持续学习的研究进展与趋势

持续学习的研究进展与趋势

专知会员服务

46+阅读 · 2024年3月8日

《图持续学习》综述

《图持续学习》综述

专知会员服务

45+阅读 · 2024年2月13日

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

专知会员服务

59+阅读 · 2023年5月5日

持续学习：研究综述

持续学习：研究综述

专知会员服务

83+阅读 · 2023年1月30日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知会员服务

37+阅读 · 2020年2月27日

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

专知会员服务

87+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

相关论文

Unlocking [CLS] Features for Continual Post-Training

Arxiv

0+阅读 · 2月19日

Reinforcement Learning via Self-Distillation

Arxiv

0+阅读 · 2月16日

SAILS: Segment Anything with Incrementally Learned Semantics for Task-Invariant and Training-Free Continual Learning

Arxiv

0+阅读 · 2月16日

Experiential Reinforcement Learning

Arxiv

0+阅读 · 2月15日

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月8日

Learning to Continually Learn via Meta-learning Agentic Memory Designs

Arxiv

0+阅读 · 2月8日

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月2日

The Effect of Architecture During Continual Learning

Arxiv

0+阅读 · 1月27日

Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

Arxiv

0+阅读 · 1月21日

Continual Knowledge Adaptation for Reinforcement Learning

Arxiv

0+阅读 · 1月20日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员