Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.


翻译:通过知识蒸馏(Knowledge Distillation, KD)从交叉编码器教师模型中迁移知识已成为训练检索模型的标准范式。尽管现有研究主要集中于挖掘难负例以提升判别能力,但训练数据的系统性组成及由此产生的教师分数分布却相对较少受到关注。在本工作中,我们强调仅关注难负例会阻碍学生模型学习教师模型的完整偏好结构,从而可能损害泛化能力。为有效模拟教师分数分布,我们提出一种分层采样(Stratified Sampling)策略,该策略均匀覆盖整个分数谱系。在域内与跨域基准上的实验表明,保留教师分数方差与熵的分层采样作为鲁棒基线,能在多种设置下显著优于Top-K采样与随机采样。这些发现表明,蒸馏的本质在于保留教师所感知的多样化相对分数范围。

0
下载
关闭预览

相关内容

【NeurIPS2025】开源权重模型的知识蒸馏检测
专知会员服务
9+阅读 · 2025年10月3日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
专知会员服务
21+阅读 · 2021年8月17日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
2+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【NeurIPS2025】开源权重模型的知识蒸馏检测
专知会员服务
9+阅读 · 2025年10月3日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
专知会员服务
21+阅读 · 2021年8月17日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员