Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation - 专知论文

会员服务 ·

0

蒸馏 · 知识 · 知识蒸馏 · 机理研究 · 输出 ·

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

翻译：蒸馏电路：知识蒸馏中内部重构的机理研究

Reilly Haskins,Benjamin Adams

Knowledge distillation compresses a larger neural model (teacher) into smaller, faster student models by training them to match teacher outputs. However, the internal computational transformations that occur during this process remain poorly understood. We apply techniques from mechanistic interpretability to analyze how internal circuits, representations, and activation patterns differ between teachers and students. Focusing on GPT2 and its distilled counterpart DistilGPT2, and generalizing our findings to both bidirectional architectures and larger model pairs, we find that student models can reorganize, compress, and discard teacher components, often resulting in a stronger reliance on fewer individual components. To quantify functional alignment beyond output similarity, we introduce an alignment metric based on influence-weighted component similarity, validated across multiple tasks. Our findings reveal that while knowledge distillation preserves broad functional behaviors, it also causes significant shifts in internal computation, with important implications for the robustness and generalization capacity of distilled models.

翻译：知识蒸馏通过训练较小的学生模型以匹配较大教师模型的输出，从而实现模型压缩。然而，这一过程中发生的内部计算变换机制仍不明确。本研究应用机理可解释性技术，分析教师模型与学生模型在内部电路、表征和激活模式上的差异。以GPT2及其蒸馏版本DistilGPT2为主要研究对象，并将发现推广至双向架构及更大规模的模型对，我们发现学生模型能够重组、压缩甚至舍弃教师模型的某些组件，往往导致其对更少独立组件的依赖增强。为量化超越输出相似度的功能对齐程度，我们提出了一种基于影响力加权组件相似度的对齐度量方法，并在多个任务上进行了验证。研究结果表明，尽管知识蒸馏保留了宏观功能行为，但也引发了内部计算的显著变化，这对蒸馏模型的鲁棒性与泛化能力具有重要影响。

0

相关内容

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

20+阅读 · 4月5日

【NeurIPS2025】开源权重模型的知识蒸馏检测

【NeurIPS2025】开源权重模型的知识蒸馏检测

专知会员服务

9+阅读 · 2025年10月3日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

专知会员服务

37+阅读 · 2022年11月1日

深度学习中知识蒸馏研究综述

深度学习中知识蒸馏研究综述

专知会员服务

109+阅读 · 2022年8月13日

「知识蒸馏」最新2022研究综述

「知识蒸馏」最新2022研究综述

专知会员服务

123+阅读 · 2022年3月20日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

28+阅读 · 2021年12月4日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知会员服务

96+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的通信信号处理理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

面向性能在线评估的锂离子电池机理模型仿真关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Arxiv

0+阅读 · 3月11日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月5日

Circuit Insights: Towards Interpretability Beyond Activations

Arxiv

0+阅读 · 3月4日

Reproducing and Comparing Distillation Techniques for Cross-Encoders

Arxiv

0+阅读 · 3月3日

DistillLens: Symmetric Knowledge Distillation Through Logit Lens

Arxiv

0+阅读 · 2月14日

Heterogeneous Complementary Distillation

Arxiv

0+阅读 · 2月13日

Life Cycle-Aware Evaluation of Knowledge Distillation for Machine Translation: Environmental Impact and Translation Quality Trade-offs

Arxiv

0+阅读 · 2月10日

A Metamorphic Testing Perspective on Knowledge Distillation for Language Models of Code: Does the Student Deeply Mimic the Teacher?

Arxiv

0+阅读 · 2月9日

REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency

Arxiv

0+阅读 · 2月4日

Teacher-Guided Student Self-Knowledge Distillation Using Diffusion Model

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

13+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

10+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

20+阅读 · 4月5日

【NeurIPS2025】开源权重模型的知识蒸馏检测

【NeurIPS2025】开源权重模型的知识蒸馏检测

专知会员服务

9+阅读 · 2025年10月3日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

好的知识蒸馏架构是什么样的？蒙特利尔麦吉尔大学最新《知识学习的师生架构》综述论文，12页pdf详述知识蒸馏师生体系结构体系

专知会员服务

37+阅读 · 2022年11月1日

深度学习中知识蒸馏研究综述

深度学习中知识蒸馏研究综述

专知会员服务

109+阅读 · 2022年8月13日

「知识蒸馏」最新2022研究综述

「知识蒸馏」最新2022研究综述

专知会员服务

123+阅读 · 2022年3月20日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

28+阅读 · 2021年12月4日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知会员服务

96+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

相关论文

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Arxiv

0+阅读 · 3月11日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月5日

Circuit Insights: Towards Interpretability Beyond Activations

Arxiv

0+阅读 · 3月4日

Reproducing and Comparing Distillation Techniques for Cross-Encoders

Arxiv

0+阅读 · 3月3日

DistillLens: Symmetric Knowledge Distillation Through Logit Lens

Arxiv

0+阅读 · 2月14日

Heterogeneous Complementary Distillation

Arxiv

0+阅读 · 2月13日

Life Cycle-Aware Evaluation of Knowledge Distillation for Machine Translation: Environmental Impact and Translation Quality Trade-offs

Arxiv

0+阅读 · 2月10日

A Metamorphic Testing Perspective on Knowledge Distillation for Language Models of Code: Does the Student Deeply Mimic the Teacher?

Arxiv

0+阅读 · 2月9日

REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency

Arxiv

0+阅读 · 2月4日

Teacher-Guided Student Self-Knowledge Distillation Using Diffusion Model

Arxiv

0+阅读 · 2月2日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的通信信号处理理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

面向性能在线评估的锂离子电池机理模型仿真关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员