Visual instruction tuning effectively adapts a pre-trained Large Language Model (LLM) to process image information alongside text. Yet, it remains unclear how visual features are embedded into the layer-wise hierarchy of abstractions of the LLM backbone. Across a diverse set of vision-language architectures, we show that instruction tuning primarily serves as a bridge, embedding visual features directly into the intermediate semantic layers of the LLM, bypassing the early layers devoted to unimodal processing. With probing analyses and causal interventions, we show that these intermediate layers are the semantic core of vision-language processing and play a critical role in the performance on a broad set of multimodal benchmarks. In addition, by comparing the geometry of semantically equivalent visual and textual representations, we find that fine-tuning extends and strengthens the existing abstraction phase, aligning visual features with pre-existing textual ones. Finally, we confirm the functional role of this localized alignment by restricting fine-tuning to intermediate layers alone: this strategy preserves the performance of full fine-tuning on vision-centric benchmarks while reducing training time. Our results suggest that multimodal integration is a localized phenomenon driven by the repurposing of the internal abstraction engine of the LLM.


翻译:视觉指令调优能够有效将预训练的大语言模型适配为同时处理图像与文本信息。然而,视觉特征如何嵌入大语言模型骨干网络中层级的抽象层次仍不明确。通过分析多种视觉-语言架构,我们证明指令调优主要充当桥梁角色,直接将视觉特征注入大语言模型的中间语义层,绕过了早期用于单模态处理的层级。借助探测分析与因果干预实验,我们发现这些中间层是视觉-语言处理的语义核心,对多模态基准测试的整体性能至关重要。此外,通过比较语义等价的视觉与文本表征的几何结构,我们发现微调扩展并强化了现有抽象阶段,使视觉特征与预训练的文本特征对齐。最后,我们通过将微调限制在中间层的方法验证了这种局部对齐的功能性作用:该策略在保持全量微调在视觉中心基准测试中性能的同时,缩短了训练时间。我们的结果表明,多模态集成是通过复用大语言模型内部抽象引擎实现的局部化现象。

0
下载
关闭预览

相关内容

预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
《通用多模态模型的视觉指令微调》综述
专知会员服务
40+阅读 · 2023年12月29日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
MIMIC-IT:多模态上下文指令调优
专知会员服务
40+阅读 · 2023年6月11日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 6月15日
Arxiv
0+阅读 · 5月8日
Instruction Tuning for Large Language Models: A Survey
Arxiv
15+阅读 · 2023年8月21日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员