Model stitching, connecting early layers of one model (source) to later layers of another (target) via a light stitch layer, has served as a probe of representational compatibility. Prior work finds that models trained on the same dataset remain stitchable (negligible accuracy drop) despite different initializations or objectives. We revisit stitching for Vision Foundation Models (VFMs) that vary in objectives, data, and modality mix (e.g., CLIP, DINOv2, SigLIP 2) and ask: Are heterogeneous VFMs stitchable? We introduce a systematic protocol spanning the stitch points, stitch layer families, training losses, and downstream tasks. Three findings emerge. (1) Stitch layer training matters: conventional approaches that match the intermediate features at the stitch point or optimize the task loss end-to-end struggle to retain accuracy, especially at shallow stitch points. (2) With a simple feature-matching loss at the target model's penultimate layer, heterogeneous VFMs become reliably stitchable across vision tasks. (3) For deep stitch points, the stitched model can surpass either constituent model at only a small inference overhead (for the stitch layer). Building on these findings, we further propose the VFM Stitch Tree (VST), which shares early layers across VFMs while retaining their later layers, yielding a controllable accuracy-latency trade-off for multimodal LLMs that often leverage multiple VFMs. Taken together, our study elevates stitching from a diagnostic probe to a practical recipe for integrating complementary VFM strengths and pinpointing where their representations align or diverge.


翻译:模型拼接通过轻量级拼接层将一个模型(源模型)的早期层与另一个模型(目标模型)的后期层相连接,长期以来被用作表征兼容性的探针。先前研究发现,尽管初始化或目标函数不同,在同一数据集上训练的模型仍可保持可拼接性(精度下降可忽略)。本文重新审视了在目标函数、数据及模态组合(例如 CLIP、DINOv2、SigLIP 2)上存在差异的视觉基础模型(VFMs)的拼接问题,并探讨:异构 VFMs 是否可拼接?我们引入了一个系统化的评估协议,涵盖拼接点、拼接层族、训练损失函数及下游任务。研究得出三个主要发现。(1)拼接层训练至关重要:传统方法(如在拼接点匹配中间特征或端到端优化任务损失)难以保持精度,尤其在浅层拼接点时。(2)采用目标模型倒数第二层的简单特征匹配损失,异构 VFMs 可在多种视觉任务上实现可靠拼接。(3)对于深层拼接点,拼接模型能以较小的推理开销(仅针对拼接层)超越任一组成模型的性能。基于这些发现,我们进一步提出了 VFM 拼接树(VST),该方法在多个 VFMs 间共享早期层,同时保留各自的后期层,从而为常利用多个 VFMs 的多模态大语言模型提供可控的精度-延迟权衡方案。综上所述,本研究将拼接从一种诊断性探针提升为整合互补性 VFM 优势、并精确定位其表征对齐或分歧位置的实际方法。

0
下载
关闭预览

相关内容

【博士论文】模型合并:理论基础与算法研究
专知会员服务
15+阅读 · 5月7日
【斯坦福博士论文】基础模型后训练的新方法
专知会员服务
25+阅读 · 2025年11月8日
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
基础模型时代的图像分割研究综述
专知会员服务
28+阅读 · 2024年8月26日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
常用的模型集成方法介绍:bagging、boosting 、stacking
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
干货|全景视频拼接的关键技术分析
全球人工智能
13+阅读 · 2017年7月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月13日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
【博士论文】模型合并:理论基础与算法研究
专知会员服务
15+阅读 · 5月7日
【斯坦福博士论文】基础模型后训练的新方法
专知会员服务
25+阅读 · 2025年11月8日
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
基础模型时代的图像分割研究综述
专知会员服务
28+阅读 · 2024年8月26日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
《深度模型融合》综述
专知会员服务
75+阅读 · 2023年9月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员