Knowledge Distillation (KD) aims to distill the knowledge of a cumbersome teacher model into a lightweight student model. Its success is generally attributed to the privileged information on similarities among categories provided by the teacher model, and in this sense, only strong teacher models are deployed to teach weaker students in practice. In this work, we challenge this common belief by following experimental observations: 1) beyond the acknowledgment that the teacher can improve the student, the student can also enhance the teacher significantly by reversing the KD procedure; 2) a poorly-trained teacher with much lower accuracy than the student can still improve the latter significantly. To explain these observations, we provide a theoretical analysis of the relationships between KD and label smoothing regularization. We prove that 1) KD is a type of learned label smoothing regularization and 2) label smoothing regularization provides a virtual teacher model for KD. From these results, we argue that the success of KD is not fully due to the similarity information between categories from teachers, but also to the regularization of soft targets, which is equally or even more important. Based on these analyses, we further propose a novel Teacher-free Knowledge Distillation (Tf-KD) framework, where a student model learns from itself or manuallydesigned regularization distribution. The Tf-KD achieves comparable performance with normal KD from a superior teacher, which is well applied when a stronger teacher model is unavailable. Meanwhile, Tf-KD is generic and can be directly deployed for training deep neural networks. Without any extra computation cost, Tf-KD achieves up to 0.65\% improvement on ImageNet over well-established baseline models, which is superior to label smoothing regularization.


翻译:知识蒸馏(KD)旨在将一个繁琐的教师模式的知识提炼成一个轻量级学生模式,其成功一般归功于关于教师模式所提供的不同类别相似之处的优异信息,从这个意义上说,只有强大的教师模式才能在实践中教授弱小的学生。在这项工作中,我们通过下列实验观察来质疑这一共同信念:1)除了承认教师可以改善学生,学生还可以通过改变KD程序来大大加强教师;2)教师的精度大大低于学生的精度仍然可以大大改进后者。为了解释这些观察,我们提供了对KD和标签平稳正规化之间的关系的理论分析。我们证明:(1)KD是一种学习性标签平稳规范化的型号,2)标签平稳化为KD提供了一个虚拟教师模式。我们从这些结果中说,KD的成功并非完全由于教师能够改善学生的相似性信息,而是由于软性目标的正规化,这同样或甚至更加重要。基于这些分析,我们进一步提议对KD和Speople Stilling网络之间的关系进行理论性分析。我们证明,在Sref-Def-destrill Stillation Stillation Stillation the laf laf-laf laxalalal dal dal dal dald lader is saldald lax be saldal be sal be slegildald roild be s bleglegildaldaldald a press prilate sald be slegald romald romald romaldaldaldald rogide praldaldaldald praldaldald) 使学生能够直接学习一个正常地使用一个教师的正常的正常的升级的模型可以使师的升级的升级的升级的升级的模型可以使用。

0
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2021年4月9日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
专知会员服务
162+阅读 · 2020年1月16日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
已删除
将门创投
5+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
Arxiv
33+阅读 · 2020年3月23日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关资讯
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
已删除
将门创投
5+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Top
微信扫码咨询专知VIP会员