视觉语言模型(VLMs)将视觉感知能力与大型语言模型(LLMs)所具备的通用能力(如推理)结合在一起。然而,这两种能力如何协同发挥作用,其内部机制尚未被深入理解。在本研究中,我们尝试通过模型融合的方式,将感知与推理进行组合,具体方法是连接不同模型的参数。 与以往主要集中于同类模型融合的研究不同,我们提出了一种跨模态的模型融合方法,使得LLM的推理能力能够无缝引入到VLM中。通过大量实证实验,我们证明模型融合提供了一种无需重新训练即可将推理能力从LLM迁移至VLM的有效路径。 此外,我们还利用融合后的模型来研究感知与推理的内部机制以及模型融合对其影响的方式。我们的研究发现:感知能力主要编码于模型的前层结构,而推理能力则更多依赖于中后层结构。在融合之后,模型的所有层都开始对推理任务产生贡献,而感知能力的层级分布则基本保持不变。 这些发现表明,模型融合不仅是多模态集成的有效手段,同时也为理解感知与推理的协同机制提供了新的视角。我们的代码已公开,地址如下: 👉 https://github.com/shiqichen17/VLM-Merging

成为VIP会员查看完整内容
17

相关内容

《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【2022新书】Python数学逻辑,285页pdf
专知
13+阅读 · 2022年11月24日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
500+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关基金
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员