Knowledge distillation (KD) is a tool to compress a larger system (teacher) into a smaller one (student). In machine translation, studies typically report only the translation quality of the student and omit the computational complexity of performing KD, making it difficult to select among the many available KD choices under compute-induced constraints. In this study, we evaluate representative KD methods by considering both translation quality and computational cost. We express computational cost as a carbon footprint using the machine learning life cycle assessment (MLCA) tool. This assessment accounts for runtime operational emissions and amortized hardware production costs throughout the KD model life cycle (teacher training, distillation, and inference). We find that (i) distillation overhead dominates the total footprint at small deployment volumes, (ii) inference dominates at scale, making KD beneficial only beyond a task-dependent usage threshold, and (iii) word-level distillation typically offers more favorable footprint-quality trade-offs than sequence-level distillation. Our protocol provides reproducible guidance for selecting KD methods under explicit quality and compute-induced constraints.


翻译:知识蒸馏(KD)是一种将较大系统(教师模型)压缩为较小系统(学生模型)的技术。在机器翻译领域,现有研究通常仅报告学生模型的翻译质量,而忽略了执行知识蒸馏的计算复杂度,这使得在计算资源约束下难以从众多可用的知识蒸馏方法中进行选择。本研究通过综合考虑翻译质量和计算成本,对代表性的知识蒸馏方法进行评估。我们使用机器学习生命周期评估(MLCA)工具将计算成本量化为碳足迹。该评估涵盖了知识蒸馏模型生命周期(教师模型训练、蒸馏过程及推理阶段)中的运行时运营排放以及分摊的硬件生产成本。研究发现:(i)在部署规模较小时,蒸馏过程的开销主导了总碳足迹;(ii)在规模化部署时,推理阶段成为主导因素,这使得知识蒸馏仅在超越任务相关的使用阈值后才具有效益;(iii)词级蒸馏通常比序列级蒸馏提供更有利的碳足迹-质量权衡。我们的评估方案为在明确的质量和计算约束下选择知识蒸馏方法提供了可复现的指导。

0
下载
关闭预览

相关内容

【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
专知会员服务
21+阅读 · 2021年8月17日
专知会员服务
27+阅读 · 2021年8月13日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
机器翻译学术论文写作方法和技巧
清华大学研究生教育
11+阅读 · 2018年12月23日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员