持续多模态指令微调对于使多模态大语言模型(Multimodal Large Language Models,简称 MLLMs)适应不断变化的任务至关重要。然而,大多数现有方法采用固定的模型架构,因其静态的模型容量,难以有效适应新任务。为此,我们提出在参数预算限制下进化模型架构以实现动态任务适应,这一方向尚未被充分探索,并带来了两个主要挑战:1)任务架构冲突:不同任务在层级适配上存在差异化需求;2)模态不平衡:不同任务对各模态依赖程度不同,导致更新过程不均衡。 为应对上述挑战,我们提出了一种新颖的方法:动态课程化 LoRA 专家混合机制(D-MoLE),该方法在受控参数预算下自动进化 MLLM 的架构,以持续适应新任务,同时保留已学知识。具体而言,我们设计了一种动态层级专家分配器,该模块可自动在各层之间分配 LoRA 专家,以解决架构冲突问题,并按层级方式路由指令以促进专家之间的知识共享。随后,我们进一步提出一种基于梯度的跨模态持续课程机制,该机制根据任务中各模态的难度调整 MLLM 各模块的更新比例,从而缓解模态不平衡问题。 大量实验表明,D-MoLE 在多个基准任务中显著优于当前最先进的方法,平均提升达 15%。据我们所知,这是首个从架构角度出发,对 MLLM 进行持续学习的研究。

成为VIP会员查看完整内容
12

相关内容

【ICML2025】扩散模型中参数高效微调的零样本适应
专知会员服务
13+阅读 · 2025年6月7日
【IJCAI2025】用于大型语言模型的块循环适配器
专知会员服务
10+阅读 · 2025年5月2日
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
27+阅读 · 2024年2月28日
【AAAI2024】基于扩散语言模型的文本引导分子生成
专知会员服务
29+阅读 · 2024年2月21日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
35+阅读 · 2023年10月19日
专知会员服务
12+阅读 · 2021年6月20日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
27+阅读 · 2023年3月17日
Arxiv
69+阅读 · 2022年9月7日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关VIP内容
【ICML2025】扩散模型中参数高效微调的零样本适应
专知会员服务
13+阅读 · 2025年6月7日
【IJCAI2025】用于大型语言模型的块循环适配器
专知会员服务
10+阅读 · 2025年5月2日
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
27+阅读 · 2024年2月28日
【AAAI2024】基于扩散语言模型的文本引导分子生成
专知会员服务
29+阅读 · 2024年2月21日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
35+阅读 · 2023年10月19日
专知会员服务
12+阅读 · 2021年6月20日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员