基于自蒸馏的多令牌预测 (Multi-Token Prediction via Self-Distillation) - 专知论文

会员服务 ·

0

令牌 · 蒸馏 · 解码 · 自蒸馏 · 预训练 ·

Multi-Token Prediction via Self-Distillation

翻译：基于自蒸馏的多令牌预测

John Kirchenbauer,Abhimanyu Hans,Brian Bartoldson,Micah Goldblum,Ashwinee Panda,Tom Goldstein

from arxiv, 8 pages and 5 figures in the main body

Existing techniques for accelerating language model inference, such as speculative decoding, require training auxiliary speculator models and building and deploying complex inference pipelines. We consider a new approach for converting a pretrained autoregressive language model from a slow single next token prediction model into a fast standalone multi-token prediction model using a simple online distillation objective. The final model retains the exact same implementation as the pretrained initial checkpoint and is deployable without the addition of any auxiliary verifier or other specialized inference code. On GSM8K, our method produces models that can decode more than $3\times$ faster on average at $<5\%$ drop in accuracy relative to single token decoding performance.

翻译：现有的语言模型推理加速技术（如推测解码）需要训练辅助推测器模型，并构建和部署复杂的推理流水线。我们提出一种新方法，通过简单的在线蒸馏目标，将预训练的自回归语言模型从缓慢的单令牌预测模型转换为快速的独立多令牌预测模型。最终模型保持与预训练初始检查点完全相同的实现方式，无需添加任何辅助验证器或其他专用推理代码即可部署。在GSM8K数据集上，我们的方法生成的模型平均解码速度可提升超过$3\times$，同时相对单令牌解码性能的准确率下降幅度小于$5\%$。

0

相关内容

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

17+阅读 · 4月5日

【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练

【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练

专知会员服务

11+阅读 · 2025年4月26日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

专知会员服务

21+阅读 · 2023年6月28日

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

专知会员服务

94+阅读 · 2020年4月13日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑缓冲区大小及在制品数量的多工序生产系统预测维护方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

自热回收精馏过程的优化与控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

SimLens for Early Exit in Large Language Models: Eliciting Accurate Latent Predictions with One More Token

Arxiv

0+阅读 · 3月14日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月5日

On-Policy Self-Distillation for Reasoning Compression

Arxiv

0+阅读 · 3月5日

Speculative Speculative Decoding

Arxiv

0+阅读 · 3月3日

Universal Inverse Distillation for Matching Models with Real-Data Supervision (No GANs)

Arxiv

0+阅读 · 3月2日

Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

Arxiv

0+阅读 · 3月2日

Token Management in Multi-Tenant AI Inference Platforms

Arxiv

0+阅读 · 2月27日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Speculative Decoding with a Speculative Vocabulary

Arxiv

0+阅读 · 2月14日

Cross-Attention Speculative Decoding

Arxiv

0+阅读 · 2月11日

VIP会员

文章信息

相关主题

最新内容

战争机器学习：数据生态系统构建（155页）

战争机器学习：数据生态系统构建（155页）

专知会员服务

1+阅读 · 今天8:10

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

专知会员服务

1+阅读 · 今天7:40

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

12+阅读 · 4月14日

内省扩散语言模型

内省扩散语言模型

专知会员服务

5+阅读 · 4月14日

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

4+阅读 · 4月14日

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

3+阅读 · 4月14日

世界无人无线电情报系统经验分析与实验实现（研究论文）

世界无人无线电情报系统经验分析与实验实现（研究论文）

专知会员服务

7+阅读 · 4月14日

大规模作战行动中的战术作战评估（研究论文）

大规模作战行动中的战术作战评估（研究论文）

专知会员服务

8+阅读 · 4月14日

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

5+阅读 · 4月14日

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

3+阅读 · 4月14日

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

5+阅读 · 4月14日

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

21+阅读 · 4月14日

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

19+阅读 · 4月14日

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

7+阅读 · 4月14日

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

9+阅读 · 4月14日

相关VIP内容

大语言模型同策略蒸馏研究综述

大语言模型同策略蒸馏研究综述

专知会员服务

17+阅读 · 4月5日

【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练

【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练

专知会员服务

11+阅读 · 2025年4月26日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

专知会员服务

21+阅读 · 2023年6月28日

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

专知会员服务

94+阅读 · 2020年4月13日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

内省扩散语言模型

战争机器学习：数据生态系统构建（155页）

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关论文

SimLens for Early Exit in Large Language Models: Eliciting Accurate Latent Predictions with One More Token

Arxiv

0+阅读 · 3月14日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月5日

On-Policy Self-Distillation for Reasoning Compression

Arxiv

0+阅读 · 3月5日

Speculative Speculative Decoding

Arxiv

0+阅读 · 3月3日

Universal Inverse Distillation for Matching Models with Real-Data Supervision (No GANs)

Arxiv

0+阅读 · 3月2日

Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

Arxiv

0+阅读 · 3月2日

Token Management in Multi-Tenant AI Inference Platforms

Arxiv

0+阅读 · 2月27日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Speculative Decoding with a Speculative Vocabulary

Arxiv

0+阅读 · 2月14日

Cross-Attention Speculative Decoding

Arxiv

0+阅读 · 2月11日

相关基金

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑缓冲区大小及在制品数量的多工序生产系统预测维护方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

自热回收精馏过程的优化与控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员