Model merging aims to combine multiple task-specific expert models into a single model while preserving generalization across diverse tasks. However, interference among experts, especially when they are trained on different objectives, often leads to significant performance degradation. Despite recent progress, resolving this interference without data access, retraining, or architectural modification remains a fundamental challenge. This paper provides a theoretical analysis demonstrating that the input covariance of each task, which is a key factor for optimal merging, can be implicitly estimated from the parameter differences of its fine-tuned model, even in a fully data-free setting. Building on this insight, we introduce \acem, an Adaptive Covariance Estimation framework that effectively mitigates inter-task interference. Our approach features a principled, closed-form solution that contrasts with prior iterative or heuristic methods. Extensive experiments on both vision and language benchmarks demonstrate that \acem sets a new state-of-the-art among data-free methods. It consistently outperforms existing baselines; for example, \acem achieves an average absolute improvement of 4\% over the previous methods across seven tasks on GPT-2. Owing to its efficient closed-form formulation, \acem delivers superior performance with a modest computational cost, providing a practical and theoretically grounded solution for model merging.


翻译:模型合并旨在将多个任务专用的专家模型整合为单一模型,同时保持跨不同任务的泛化能力。然而,专家模型之间的干扰(尤其是当它们基于不同目标进行训练时)往往导致显著的性能下降。尽管近期研究取得进展,但在无数据访问、无需重新训练或架构修改的前提下解决这种干扰仍是一个根本性挑战。本文通过理论分析证明:即使在完全无数据场景下,每个任务的输入协方差(即优化合并的关键因素)也能从其微调模型的参数差异中隐式估计得出。基于这一洞见,我们提出ACE-Merging——一种自适应协方差估计框架,可有效缓解任务间干扰。该方法采用与先前迭代或启发式方法截然不同的理论闭环解形式。在视觉和语言基准上的大量实验表明,ACE-Merging在无数据方法中达到了最新最优水平,且持续优于现有基线。例如,在GPT-2上的七项任务中,ACE-Merging相较于先前方法取得平均4%的绝对性能提升。得益于高效的闭环公式,ACE-Merging以适度的计算成本实现了卓越性能,为模型合并提供了兼具实用性与理论基础的解决方案。

0
下载
关闭预览

相关内容

【博士论文】模型合并:理论基础与算法研究
专知会员服务
15+阅读 · 5月7日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
【NeurIPS 2023】基于时间注意力的多任务强化学习对比模块
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
相关主题
最新内容
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
0+阅读 · 今天3:58
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
3+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
4+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
12+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
4+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
3+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
相关VIP内容
【博士论文】模型合并:理论基础与算法研究
专知会员服务
15+阅读 · 5月7日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
【NeurIPS 2023】基于时间注意力的多任务强化学习对比模块
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员