最近,我在IndabaX Rwanda和卡内基梅隆大学(学号为18-661)的“工程师机器学习导论”课程中的学生研究讲座上进行了关于多模态大语言模型(LLM)的演讲。在演讲中,我们详细剖析了多模态LLM、多模态任务以及一般的多模态LLM架构。大多数多模态LLM几乎都有非常相似的架构:视觉编码器用于获取图像嵌入(如CLIP-ViT或SigLIP),连接器/投影器用于将图像标记映射到LLM维度空间(例如:线性层/MLP/注意力层),以及用于生成的底层LLM(通常是解码器类型的语言模型)。我们还介绍了一些代表性模型:CLIP为基础奠定了基础,Flamingo启发了图像-文本交错和视觉语言模型中的上下文学习,LLaVA引入了视觉指令调优,在许多多模态基准测试中实现了最先进的性能。最后,我们讨论了基准测试、开源模型与闭源模型的对比、当前的挑战以及我对多模态LLM的期望清单。

成为VIP会员查看完整内容
96

相关内容

大型语言模型供应链
专知会员服务
45+阅读 · 2024年4月29日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
49+阅读 · 2020年9月28日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
Arxiv
82+阅读 · 2023年3月26日
VIP会员
相关VIP内容
大型语言模型供应链
专知会员服务
45+阅读 · 2024年4月29日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
49+阅读 · 2020年9月28日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
相关论文
微信扫码咨询专知VIP会员