Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.


翻译:通过知识蒸馏(KD)从交叉编码器教师模型中迁移知识已成为训练检索模型的标准范式。现有研究主要集中在挖掘困难负样本以提升判别能力,但对训练数据的系统性构成及其产生的教师分数分布关注相对较少。本工作强调,仅关注困难负样本会阻碍学生学习教师的完整偏好结构,可能损害泛化能力。为有效模拟教师分数分布,我们提出一种分层采样策略,该策略均匀覆盖整个分数谱系。在领域内和跨领域基准上的实验证实,保持教师分数方差与熵的分层采样作为稳健基线,在多种设置下显著优于top-K采样与随机采样。这些发现表明,蒸馏的本质在于保留教师所感知的多样化相对分数范围。

0
下载
关闭预览

相关内容

【NeurIPS2025】开源权重模型的知识蒸馏检测
专知会员服务
9+阅读 · 2025年10月3日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
论文浅尝|简单高效的知识图谱表示学习负样本采样方法
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
4+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
4+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
4+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
14+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员