Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions - 专知论文

会员服务 ·

0

词元 · 交互 · 蒸馏 · 模态 · 多模 ·

Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions

翻译：超越下一词元对齐：基于词元交互的多模态大语言模型蒸馏

Lin Chen,Xiaoke Zhao,Kun Ding,Weiwei Feng,Changtao Miao,Zili Wang,Wenxuan Guo,Ying Wang,Kaiyuan Zheng,Bo Zhang,Zhe Li,Shiming Xiang

Multimodal Large Language Models (MLLMs) demonstrate impressive cross-modal capabilities, yet their substantial size poses significant deployment challenges. Knowledge distillation (KD) is a promising solution for compressing these models, but existing methods primarily rely on static next-token alignment, neglecting the dynamic token interactions, which embed essential capabilities for multimodal understanding and generation. To this end, we introduce Align-TI, a novel KD framework designed from the perspective of Token Interactions. Our approach is motivated by the insight that MLLMs rely on two primary interactions: vision-instruction token interactions to extract relevant visual information, and intra-response token interactions for coherent generation. Accordingly, Align-TI introduces two components: IVA enables the student model to imitate the teacher's instruction-relevant visual information extract capability by aligning on salient visual regions. TPA captures the teacher's dynamic generative logic by aligning the sequential token-to-token transition probabilities. Extensive experiments demonstrate Align-TI's superiority. Notably, our approach achieves $2.6\%$ relative improvement over Vanilla KD, and our distilled Align-TI-2B even outperforms LLaVA-1.5-7B (a much larger MLLM) by $7.0\%$, establishing a new state-of-the-art distillation framework for training parameter-efficient MLLMs. Code is available at https://github.com/lchen1019/Align-TI.

翻译：多模态大语言模型（MLLMs）展现出卓越的跨模态能力，但其庞大的参数量带来了显著的部署挑战。知识蒸馏（KD）是压缩此类模型的有效途径，然而现有方法主要依赖静态的下一词元对齐，忽视了嵌入多模态理解与生成关键能力的动态词元交互。为此，我们提出Align-TI——一个从词元交互视角设计的新型知识蒸馏框架。我们的方法基于以下洞见：MLLMs主要依赖两种交互机制：视觉-指令词元交互用于提取相关视觉信息，以及响应内部词元交互用于实现连贯生成。相应地，Align-TI包含两个核心组件：IVA通过对齐显著视觉区域，使学生模型能够模仿教师模型的指令相关视觉信息提取能力；TPA通过对齐序列化的词元间转移概率，捕捉教师模型的动态生成逻辑。大量实验证明了Align-TI的优越性。值得注意的是，我们的方法相比传统知识蒸馏实现了2.6%的相对性能提升，蒸馏得到的Align-TI-2B模型甚至以7.0%的优势超越了参数量大得多的LLaVA-1.5-7B模型，为训练参数高效的多模态大语言模型确立了新的最先进蒸馏框架。代码已发布于https://github.com/lchen1019/Align-TI。

0

相关内容

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

多模态大语言模型在文本丰富图像理解中的应用：全面综述

多模态大语言模型在文本丰富图像理解中的应用：全面综述

专知会员服务

27+阅读 · 2025年3月2日

西工大最新《多模态大型语言模型》全面综述

西工大最新《多模态大型语言模型》全面综述

专知会员服务

70+阅读 · 2024年8月6日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

32+阅读 · 2024年5月26日

《高效多模态大型语言模型》综述

《高效多模态大型语言模型》综述

专知会员服务

73+阅读 · 2024年5月20日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Towards Aligning Multimodal LLMs with Human Experts: A Focus on Parent-Child Interaction

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

Beyond Mimicry to Contextual Guidance: Knowledge Distillation for Interactive AI

Arxiv

0+阅读 · 2月20日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

Task-Conditioned Probing Reveals Brain-Alignment Patterns in Instruction-Tuned Multimodal LLMs

Arxiv

0+阅读 · 2月7日

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Arxiv

0+阅读 · 2月4日

The (R)Evolution of Multimodal Large Language Models: A Survey

Arxiv

16+阅读 · 2024年2月19日

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model

Arxiv

17+阅读 · 2023年11月10日

A Survey on Multimodal Large Language Models

Arxiv

25+阅读 · 2023年6月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

1+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

多模态大语言模型在文本丰富图像理解中的应用：全面综述

多模态大语言模型在文本丰富图像理解中的应用：全面综述

专知会员服务

27+阅读 · 2025年3月2日

西工大最新《多模态大型语言模型》全面综述

西工大最新《多模态大型语言模型》全面综述

专知会员服务

70+阅读 · 2024年8月6日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

32+阅读 · 2024年5月26日

《高效多模态大型语言模型》综述

《高效多模态大型语言模型》综述

专知会员服务

73+阅读 · 2024年5月20日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关论文

Towards Aligning Multimodal LLMs with Human Experts: A Focus on Parent-Child Interaction

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

Beyond Mimicry to Contextual Guidance: Knowledge Distillation for Interactive AI

Arxiv

0+阅读 · 2月20日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

Task-Conditioned Probing Reveals Brain-Alignment Patterns in Instruction-Tuned Multimodal LLMs

Arxiv

0+阅读 · 2月7日

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Arxiv

0+阅读 · 2月4日

The (R)Evolution of Multimodal Large Language Models: A Survey

Arxiv

16+阅读 · 2024年2月19日

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model

Arxiv

17+阅读 · 2023年11月10日

A Survey on Multimodal Large Language Models

Arxiv

25+阅读 · 2023年6月23日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员