Knowledge distillation (KD) has shown very promising capabilities in transferring learning representations from large models (teachers) to small models (students). However, as the capacity gap between students and teachers becomes larger, existing KD methods fail to achieve better results. Our work shows that the `prior knowledge' is vital to KD, especially when applying large teachers. Particularly, we propose the dynamic prior knowledge (DPK), which integrates part of teacher's features as the prior knowledge before the feature distillation. This means that our method also takes the teacher's feature as `input', not just `target'. Besides, we dynamically adjust the ratio of the prior knowledge during the training phase according to the feature gap, thus guiding the student in an appropriate difficulty. To evaluate the proposed method, we conduct extensive experiments on two image classification benchmarks (i.e. CIFAR100 and ImageNet) and an object detection benchmark (i.e. MS COCO. The results demonstrate the superiority of our method in performance under varying settings. Besides, our DPK makes the performance of the student model positively correlated with that of the teacher model, which means that we can further boost the accuracy of students by applying larger teachers. More importantly, DPK provides a fast solution in teacher model selection for any given model.


翻译:知识蒸馏(KD)在将大模型(教师)的学习表征迁移至小模型(学生)方面展现出极具前景的能力。然而,随着学生与教师之间能力差距的增大,现有KD方法难以取得更佳效果。本研究表明,"先验知识"对KD至关重要,尤其是在应用大型教师模型时。具体而言,我们提出了动态先验知识(DPK),该方法在特征蒸馏前将部分教师特征整合为先验知识。这意味着我们的方法不仅将教师特征视为"目标",更将其作为"输入"。此外,我们根据特征差距在训练阶段动态调整先验知识比例,从而以适当难度引导学生。为评估所提方法,我们在两个图像分类基准(即CIFAR100和ImageNet)和一个目标检测基准(即MS COCO)上进行了大量实验。结果表明,我们的方法在不同设置下均展现出性能优越性。此外,DPK使学生模型的性能与教师模型呈正相关,这意味着我们可以通过应用更大的教师模型来进一步提升学生准确率。更重要的是,DPK为任意给定模型提供了一种快速选择教师模型的解决方案。

0
下载
关闭预览

相关内容

通过学习、实践或探索所获得的认识、判断或技能。
百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
【CVPR2022】基于知识蒸馏的高效预训练
专知会员服务
32+阅读 · 2022年4月23日
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
20+阅读 · 2022年4月13日
「知识蒸馏」最新2022研究综述
专知会员服务
123+阅读 · 2022年3月20日
【WWW2022】再思考图卷积网络的知识图谱补全
专知会员服务
34+阅读 · 2022年2月15日
WSDM2022 | DualDE:基于知识图谱蒸馏的低成本推理
专知会员服务
19+阅读 · 2022年1月20日
专知会员服务
28+阅读 · 2021年6月18日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
COLING 2022 | Pro-KD:循序渐进的平滑知识蒸馏
PaperWeekly
2+阅读 · 2022年10月5日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
1+阅读 · 2022年6月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
VIP会员
最新内容
消耗优势:美军的“精确规模化”概念
专知会员服务
4+阅读 · 今天10:12
《离线语言支持系统:面向空战战术决策》
专知会员服务
4+阅读 · 今天9:53
俄乌战场地面机器人如何改写战争规则
专知会员服务
8+阅读 · 6月14日
《无人水面艇文献综述与结构设计》135页
专知会员服务
12+阅读 · 6月13日
相关VIP内容
百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
【CVPR2022】基于知识蒸馏的高效预训练
专知会员服务
32+阅读 · 2022年4月23日
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
20+阅读 · 2022年4月13日
「知识蒸馏」最新2022研究综述
专知会员服务
123+阅读 · 2022年3月20日
【WWW2022】再思考图卷积网络的知识图谱补全
专知会员服务
34+阅读 · 2022年2月15日
WSDM2022 | DualDE:基于知识图谱蒸馏的低成本推理
专知会员服务
19+阅读 · 2022年1月20日
专知会员服务
28+阅读 · 2021年6月18日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员