现代深度学习通常将模型视为独立的产物:它们被独立训练,针对特定用途进行特化,并在出现改进版本时被直接替换。本论文研究了一种替代范式——模型合并(Model Merging):即直接在权重空间内,将独立训练的多个神经网络合并为单一模型,且该过程无需访问额外的训练数据,亦仅需极少甚至无需进一步优化。 本论文围绕两种范式展开。在单任务场景(Single-task setting)下,模型共享共同的目标函数但初始化状态不同。为此,我们提出了 $C^2M^3$——一种基于 Frank-Wolfe 优化的循环一致性合并算法(Cycle-consistent merging algorithm)。$C^2M^3$ 将多个网络对齐到一个共享的参数空间,该空间作为一个无参考的聚合点,使得权值平均(Weight averaging)在无需指定任何特定模型作为锚点(Anchor)的情况下依然具有意义。 在多任务场景(Multi-task setting)下,模型针对不同的下游任务进行微调。我们首先对任务向量(Task vectors)(即微调模型与其预训练初始状态之间的参数差异)进行了理论阐释。我们证明,在标准假设下,任务向量具有基于梯度的解释性,从而阐明了任务算术(Task arithmetic)的成功原因及其局限性。这种梯度视角带来了一个直接结论:众所周知梯度表现出低秩结构,而任务向量继承了这一特性。我们通过任务奇异向量(Task Singular Vectors, TSV)对这种低秩结构进行了形式化定义与利用。这种分解技术支持模型压缩,并通过 TSV-Merge 减少任务干扰。随后,我们提出了 MASS——一种输入自适应路由机制,利用 TSV 几何结构引导推理流经任务相关的子空间。最后,我们引入了 MERGE³,这是一个演化合并框架,它结合了项目反应理论(Item Response Theory),在保持解质量的同时将评估成本降低了高达 50 倍。 综上所述,这些贡献为模型合并奠定了更坚实的理论与算法基础,推动了一种使学习到的能力能够在不同模型间进行组合、复用与扩展的新范式。

成为VIP会员查看完整内容
15

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
【博士论文】机器学习中新型神经元模型的研究
专知会员服务
25+阅读 · 2024年11月20日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
41+阅读 · 2024年10月21日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月8日
Arxiv
14+阅读 · 2023年9月27日
Arxiv
33+阅读 · 2021年3月8日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
【博士论文】机器学习中新型神经元模型的研究
专知会员服务
25+阅读 · 2024年11月20日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
41+阅读 · 2024年10月21日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
相关资讯
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员