Fine-tuning Multimodal Large Language Models (MLLMs) on task-specific data is an effective way to improve performance on downstream applications. However, such adaptation often leads to a degradation in generalization on pretrained tasks, a phenomenon known as Catastrophic Forgetting. Existing methods that aim to mitigate this issue either become ineffective when fine-tuning deeper layers of the language decoder or scale poorly with increasing model size. To address these limitations, we propose Model-Dowser, a novel sparse fine-tuning approach for MLLMs. Model-Dowser measures a principled importance score for each model parameter with respect to pretrained generalization (prior to downstream adaptation) by jointly considering weight magnitudes, input activations, and output sensitivities. During fine-tuning, Model-Dowser selectively preserves high-importance parameters and updates the remaining. Comprehensive experiments on two representative MLLMs, LLaVA and NVILA, demonstrate that Model-Dowser effectively mitigates catastrophic forgetting and consistently outperforms prior methods, while remaining resource-efficient and scalable to multi-billion-parameter models.


翻译:在任务特定数据上对多模态大语言模型进行微调是提升下游应用性能的有效途径。然而,这种适应性调整通常会导致模型在预训练任务上的泛化能力下降,即灾难性遗忘现象。现有旨在缓解该问题的方法在微调语言解码器深层时往往失效,或随模型规模增大而扩展性不足。为克服这些局限,我们提出Model-Dowser——一种面向多模态大语言模型的新型稀疏微调方法。该方法通过联合考量权重幅值、输入激活与输出敏感度,为每个模型参数计算关于预训练泛化能力(在下游适应前)的理论重要性分数。在微调过程中,Model-Dowser选择性保留高重要性参数并更新其余参数。基于LLaVA和NVILA两个代表性多模态大语言模型的综合实验表明,Model-Dowser能有效缓解灾难性遗忘,持续优于现有方法,同时保持资源高效性并具备向数十亿参数模型扩展的能力。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
大型语言模型中的数字遗忘:遗忘方法的综述
专知会员服务
33+阅读 · 2024年4月8日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
大型语言模型中的数字遗忘:遗忘方法的综述
专知会员服务
33+阅读 · 2024年4月8日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员