Reliability Gated Multi-Teacher Distillation for Low Resource Abstractive Summarization - 专知论文

会员服务 ·

0

蒸馏 · 低资源 · 抽象摘要 · 知识 · 监督 ·

Reliability Gated Multi-Teacher Distillation for Low Resource Abstractive Summarization

翻译：面向低资源抽象摘要的可靠性门控多教师蒸馏

Dipto Sumit,Ankan Kumar Roy,Sadia Khair Rodela,Atia Haque Asha,Mourchona Afrin,Niloy Farhan,Farig Yousuf Sadeque

We study multiteacher knowledge distillation for low resource abstractive summarization from a reliability aware perspective. We introduce EWAD (Entropy Weighted Agreement Aware Distillation), a token level mechanism that routes supervision between teacher distillation and gold supervision based on inter teacher agreement, and CPDP (Capacity Proportional Divergence Preservation), a geometric constraint on the student position relative to heterogeneous teachers. Across two Bangla datasets, 13 BanglaT5 ablations, and eight Qwen2.5 experiments, we find that logit level KD provides the most reliable gains, while more complex distillation improves semantic similarity for short summaries but degrades longer outputs. Cross lingual pseudo label KD across ten languages retains 71-122 percent of teacher ROUGE L at 3.2x compression. A human validated multi judge LLM evaluation further reveals calibration bias in single judge pipelines. Overall, our results show that reliability aware distillation helps characterize when multi teacher supervision improves summarization and when data scaling outweighs loss engineering.

翻译：我们从可靠性感知的角度研究面向低资源抽象摘要的多教师知识蒸馏。我们提出了EWAD（熵加权一致性感知蒸馏），一种基于教师之间一致性的令牌级机制，用于在教师蒸馏与金标准监督之间路由监督信号；以及CPDP（容量比例散度保持），一种关于学生模型相对于异构教师位置的几何约束。在两个孟加拉语数据集、13个BanglaT5消融实验和八个Qwen2.5实验中，我们发现logit级知识蒸馏提供了最可靠的性能提升，而更复杂的蒸馏方法能改善短摘要的语义相似度，但会降低较长输出的质量。跨语言的伪标签知识蒸馏在十种语言上，以3.2倍压缩率保留了教师ROUGE-L的71%至122%。一项经人工验证的多裁判大语言模型评估进一步揭示了单裁判流程中的校准偏差。总体而言，我们的结果表明，可靠性感知蒸馏有助于刻画多教师监督何时能改善摘要生成，以及数据规模扩展何时比损失工程更为重要。

0

相关内容

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

20+阅读 · 4月5日

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

专知会员服务

27+阅读 · 2024年12月22日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

知识蒸馏的师生架构怎么设计？McGill大学等最新《知识蒸馏》综述，详述知识压缩、知识扩展、知识适应和知识增强的教师学生架构设计

知识蒸馏的师生架构怎么设计？McGill大学等最新《知识蒸馏》综述，详述知识压缩、知识扩展、知识适应和知识增强的教师学生架构设计

专知会员服务

40+阅读 · 2023年8月14日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

专知会员服务

42+阅读 · 2023年4月15日

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

专知会员服务

37+阅读 · 2022年11月1日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

结构可控的高有序有机半导体结晶薄膜的溶液法生长及应用

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

催化精馏过程多孔介质内多组分传递与反应特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机非均质多孔介质中水流与溶质运移问题的随机降维多尺度数值方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

加工时间可控排序问题及依赖资源指派问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

应力约束下多相材料结构非概率可靠性拓扑优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

On-Policy Distillation with Curriculum Turn-level Guidance for Multi-turn Agents

Arxiv

0+阅读 · 6月14日

Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning

Arxiv

0+阅读 · 6月14日

Entropy-Aware On-Policy Distillation of Language Models

Arxiv

0+阅读 · 6月12日

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Arxiv

0+阅读 · 6月12日

OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

Arxiv

0+阅读 · 6月11日

High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation

Arxiv

0+阅读 · 6月10日

Beyond Dark Knowledge: Mixup-Based Distillation for Reliable Predictions

Arxiv

0+阅读 · 6月10日

PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification

Arxiv

0+阅读 · 6月2日

ASKD-Whisper: Adaptive Self-knowledge Distillation for Efficient and Low-Latency Automatic Speech Recognition

Arxiv

0+阅读 · 6月1日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

20+阅读 · 4月5日

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

专知会员服务

27+阅读 · 2024年12月22日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

知识蒸馏的师生架构怎么设计？McGill大学等最新《知识蒸馏》综述，详述知识压缩、知识扩展、知识适应和知识增强的教师学生架构设计

知识蒸馏的师生架构怎么设计？McGill大学等最新《知识蒸馏》综述，详述知识压缩、知识扩展、知识适应和知识增强的教师学生架构设计

专知会员服务

40+阅读 · 2023年8月14日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

专知会员服务

42+阅读 · 2023年4月15日

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

专知会员服务

37+阅读 · 2022年11月1日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

相关论文

On-Policy Distillation with Curriculum Turn-level Guidance for Multi-turn Agents

Arxiv

0+阅读 · 6月14日

Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning

Arxiv

0+阅读 · 6月14日

Entropy-Aware On-Policy Distillation of Language Models

Arxiv

0+阅读 · 6月12日

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Arxiv

0+阅读 · 6月12日

OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

Arxiv

0+阅读 · 6月11日

High-Fidelity Two-Step Image Generation via Teacher-Aligned End-to-End Distillation

Arxiv

0+阅读 · 6月10日

Beyond Dark Knowledge: Mixup-Based Distillation for Reliable Predictions

Arxiv

0+阅读 · 6月10日

PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification

Arxiv

0+阅读 · 6月2日

ASKD-Whisper: Adaptive Self-knowledge Distillation for Efficient and Low-Latency Automatic Speech Recognition

Arxiv

0+阅读 · 6月1日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月20日

相关基金

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

结构可控的高有序有机半导体结晶薄膜的溶液法生长及应用

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

催化精馏过程多孔介质内多组分传递与反应特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机非均质多孔介质中水流与溶质运移问题的随机降维多尺度数值方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

加工时间可控排序问题及依赖资源指派问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

应力约束下多相材料结构非概率可靠性拓扑优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员