Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval - 专知论文

会员服务 ·

0

负样本 · 样本 · 知识 · 蒸馏 · 知识蒸馏 ·

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

翻译：超越困难负样本：分数分布在稠密检索知识蒸馏中的重要性

Youngjoon Jang,Seongtae Hong,Hyeonseok Moon,Heuiseok Lim

from arxiv, SIGIR 2026

Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.

翻译：通过知识蒸馏（KD）从交叉编码器教师模型中迁移知识已成为训练检索模型的标准范式。现有研究主要集中在挖掘困难负样本以提升判别能力，但对训练数据的系统性构成及其产生的教师分数分布关注相对较少。本工作强调，仅关注困难负样本会阻碍学生学习教师的完整偏好结构，可能损害泛化能力。为有效模拟教师分数分布，我们提出一种分层采样策略，该策略均匀覆盖整个分数谱系。在领域内和跨领域基准上的实验证实，保持教师分数方差与熵的分层采样作为稳健基线，在多种设置下显著优于top-K采样与随机采样。这些发现表明，蒸馏的本质在于保留教师所感知的多样化相对分数范围。

0

相关内容

负样本

【NeurIPS2025】开源权重模型的知识蒸馏检测

【NeurIPS2025】开源权重模型的知识蒸馏检测

专知会员服务

9+阅读 · 2025年10月3日

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

专知会员服务

46+阅读 · 2025年4月26日

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

专知会员服务

27+阅读 · 2024年12月22日

大模型如何蒸馏知识？港大等最新《大型语言模型知识蒸馏》综述

大模型如何蒸馏知识？港大等最新《大型语言模型知识蒸馏》综述

专知会员服务

63+阅读 · 2024年2月25日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

深度学习中知识蒸馏研究综述

深度学习中知识蒸馏研究综述

专知会员服务

109+阅读 · 2022年8月13日

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

专知会员服务

25+阅读 · 2021年12月12日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

28+阅读 · 2021年12月4日

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

专知会员服务

18+阅读 · 2020年11月11日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

论文浅尝｜简单高效的知识图谱表示学习负样本采样方法

论文浅尝｜简单高效的知识图谱表示学习负样本采样方法

开放知识图谱

14+阅读 · 2021年7月25日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于广义强度分布理论的小子样可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

基于分数阶微积分理论的粘弹性本构模型参数反演及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

Improving Diversity in Black-box Few-shot Knowledge Distillation

Arxiv

0+阅读 · 4月28日

Diverse Image Priors for Black-box Data-free Knowledge Distillation

Arxiv

0+阅读 · 4月28日

Beyond Distribution Sharpening: The Importance of Task Rewards

Arxiv

0+阅读 · 4月17日

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

Arxiv

0+阅读 · 4月6日

Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization

Arxiv

0+阅读 · 4月3日

Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music

Arxiv

0+阅读 · 3月30日

Dataset Distillation Efficiently Encodes Low-Dimensional Representations from Gradient-Based Learning of Non-Linear Tasks

Arxiv

0+阅读 · 3月30日

KDFlow: A User-Friendly and Efficient Knowledge Distillation Framework for Large Language Models

Arxiv

0+阅读 · 3月24日

FiGKD: Fine-Grained Knowledge Distillation via High-Frequency Detail Transfer

Arxiv

0+阅读 · 3月24日

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Arxiv

0+阅读 · 3月9日

VIP会员

文章信息

相关主题

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

7+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

4+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

4+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

4+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

7+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

7+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

【NeurIPS2025】开源权重模型的知识蒸馏检测

【NeurIPS2025】开源权重模型的知识蒸馏检测

专知会员服务

9+阅读 · 2025年10月3日

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

专知会员服务

46+阅读 · 2025年4月26日

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

专知会员服务

27+阅读 · 2024年12月22日

大模型如何蒸馏知识？港大等最新《大型语言模型知识蒸馏》综述

大模型如何蒸馏知识？港大等最新《大型语言模型知识蒸馏》综述

专知会员服务

63+阅读 · 2024年2月25日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

深度学习中知识蒸馏研究综述

深度学习中知识蒸馏研究综述

专知会员服务

109+阅读 · 2022年8月13日

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

专知会员服务

25+阅读 · 2021年12月12日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

28+阅读 · 2021年12月4日

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

专知会员服务

18+阅读 · 2020年11月11日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

论文浅尝｜简单高效的知识图谱表示学习负样本采样方法

论文浅尝｜简单高效的知识图谱表示学习负样本采样方法

开放知识图谱

14+阅读 · 2021年7月25日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

相关论文

Improving Diversity in Black-box Few-shot Knowledge Distillation

Arxiv

0+阅读 · 4月28日

Diverse Image Priors for Black-box Data-free Knowledge Distillation

Arxiv

0+阅读 · 4月28日

Beyond Distribution Sharpening: The Importance of Task Rewards

Arxiv

0+阅读 · 4月17日

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

Arxiv

0+阅读 · 4月6日

Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization

Arxiv

0+阅读 · 4月3日

Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music

Arxiv

0+阅读 · 3月30日

Dataset Distillation Efficiently Encodes Low-Dimensional Representations from Gradient-Based Learning of Non-Linear Tasks

Arxiv

0+阅读 · 3月30日

KDFlow: A User-Friendly and Efficient Knowledge Distillation Framework for Large Language Models

Arxiv

0+阅读 · 3月24日

FiGKD: Fine-Grained Knowledge Distillation via High-Frequency Detail Transfer

Arxiv

0+阅读 · 3月24日

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Arxiv

0+阅读 · 3月9日

相关基金

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于广义强度分布理论的小子样可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

基于分数阶微积分理论的粘弹性本构模型参数反演及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员