Knowledge Distillation (KD) and mixup have proven effective at inducing smoothness in class boundaries; KD captures inherent class relationships in probability distributions, and mixup enforces them through convex combinations of inputs. Their interaction, however, remains poorly understood, particularly when mixup is applied only during student training. In this setting, the teacher is queried on inputs drawn from a vicinal distribution it never saw during training, a controlled mismatch whose effect on knowledge transfer has not been characterised. We show that this mismatch causes the teacher's supervisory signal to be dominated by distributional confusion rather than inter-class structure. Despite it, the student does not merely imitate the teacher: it independently acquires greater linearity in the vicinal region, a structural property that the teacher lacks, and goes beyond dark-knowledge transfer. KD with mixup consistently improves student accuracy and reduces overconfidence by an order of magnitude relative to the baseline, across CIFAR and ImageNet with varying-capacity teachers. Crucially, calibration propagates from teacher to student independently of accuracy transfer, and temperature scaling governs a measurable accuracy-calibration trade-off that becomes more pronounced under vicinal training. These results reframe mixup distillation not as a degraded version of standard KD, but as a richer transfer channel that simultaneously shapes discriminative performance, uncertainty estimation, and representational geometry.


翻译:知识蒸馏与混合方法已被证明能有效诱导类别边界的平滑性:知识蒸馏通过捕捉概率分布中的固有类别关系,而混合方法则通过输入的凸组合强化这些关系。然而,它们之间的相互作用仍未得到充分理解,特别是当混合方法仅应用于学生训练时。在此设置下,教师模型被查询的输入来自训练中从未见过的邻域分布,这种受控不匹配对知识迁移的影响此前未被刻画。我们证明,这种不匹配导致教师的监督信号被分布混淆而非类间结构所主导。尽管如此,学生并非简单模仿教师:它独立地在邻域区域获得了更强的线性特征——这是教师模型所缺乏的结构性质——并超越了暗知识迁移。与基线相比,结合混合的知识蒸馏能持续提升学生准确率,并将过度自信降低一个数量级,这在CIFAR和ImageNet数据集上使用不同容量教师模型时均成立。关键的是,校准性能从教师向学生的传播独立于准确率迁移,而温度缩放则控制着一个可量化的准确率-校准权衡,该权衡在邻域训练下更为显著。这些结果将混合蒸馏重新定义为一种更丰富的迁移通道——它同时塑造判别性能、不确定性估计和表示几何结构——而非标准知识蒸馏的退化版本。

0
下载
关闭预览

相关内容

深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
「知识蒸馏」最新2022研究综述
专知会员服务
123+阅读 · 2022年3月20日
【AAAI2022】锚框排序知识蒸馏的目标检测
专知会员服务
27+阅读 · 2022年2月10日
专知会员服务
51+阅读 · 2021年9月25日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 18分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 35分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
「知识蒸馏」最新2022研究综述
专知会员服务
123+阅读 · 2022年3月20日
【AAAI2022】锚框排序知识蒸馏的目标检测
专知会员服务
27+阅读 · 2022年2月10日
专知会员服务
51+阅读 · 2021年9月25日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员