Knowledge distillation is widely used to improve generalization in practice, yet its theoretical understanding remains elusive. In the standard distillation setting, a teacher model provides soft predictions to guide the training of a student model. We model teacher and student training as coupled stochastic processes and introduce a distillation divergence, defined as the Kullback-Leibler divergence between these two stochastic kernels. Within this framework, we derive two generalization bounds for the student model relative to the teacher's generalization gap: an upper bound under a sub-Gaussian assumption via algorithmic stability, and a lower bound under a central condition with sharper dependence on the distillation divergence. We further develop a loss-sharpness-aware bound with an explicit tightness regime, showing that the teacher's local flatness can strictly tighten the bound. Additionally, in a linear Gaussian case study, the distillation divergence admits an interpretable decomposition into bias, variance, and rank-bottleneck costs, yielding practical guidance for distillation design.


翻译:知识蒸馏在实践中被广泛用于提升泛化性能,但其理论理解仍不清晰。在标准蒸馏设置中,教师模型提供软预测来指导学生模型的训练。我们将教师和学生训练建模为耦合随机过程,并引入蒸馏散度,定义为这两个随机核之间的KL散度。在此框架下,我们推导出学生模型相对于教师泛化差距的两个泛化界:基于算法稳定性的次高斯假设下的上界,以及在中心条件下对蒸馏散度具有更敏锐依赖的下界。我们进一步发展了一个具有显式紧致性区间的损失锐度感知界,表明教师的局部平坦性可以严格收紧该界。此外,在线性高斯案例研究中,蒸馏散度可分解为偏差、方差和秩瓶颈成本,为蒸馏设计提供了实用指导。

0
下载
关闭预览

相关内容

大语言模型同策略蒸馏研究综述
专知会员服务
20+阅读 · 4月5日
【NeurIPS2025】开源权重模型的知识蒸馏检测
专知会员服务
9+阅读 · 2025年10月3日
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
【博士论文】基于信息论的泛化理论方法,274页pdf
专知会员服务
54+阅读 · 2024年6月3日
【博士论文】信息论视角下的泛化理论方法,274页pdf
专知会员服务
51+阅读 · 2024年4月28日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
「知识蒸馏」最新2022研究综述
专知会员服务
123+阅读 · 2022年3月20日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
大语言模型同策略蒸馏研究综述
专知会员服务
20+阅读 · 4月5日
【NeurIPS2025】开源权重模型的知识蒸馏检测
专知会员服务
9+阅读 · 2025年10月3日
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
【博士论文】基于信息论的泛化理论方法,274页pdf
专知会员服务
54+阅读 · 2024年6月3日
【博士论文】信息论视角下的泛化理论方法,274页pdf
专知会员服务
51+阅读 · 2024年4月28日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
「知识蒸馏」最新2022研究综述
专知会员服务
123+阅读 · 2022年3月20日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员