近期在多模态应用中的加速发展得益于线上大量的图像和文本数据。但是,在医学领域,特别是在组织病理学中,相似数据的稀缺性已经阻碍了类似的进展。为了在组织病理学中实现类似的表示学习,我们转向YouTube,这是一个尚未被充分利用的视频资源,提供了1,087小时来自专家临床医生的有价值的教育性组织病理学视频。从YouTube,我们策划了Quilt:一个大型的视觉-语言数据集,包括768,826对图像和文本。Quilt是使用各种模型(包括大型语言模型)、手工算法、人类知识数据库和自动语音识别自动策划的。相比之下,为组织病理学策划的最全面的数据集只有约200K样本。我们将Quilt与来自其他来源的数据集结合,包括Twitter、研究论文和互联网,创建了一个更大的数据集:Quilt-1M,它包括1M对图像-文本样本,使其成为迄今为止最大的视觉-语言组织病理学数据集。我们通过微调一个预训练的CLIP模型来展示Quilt-1M的价值。我们的模型在对13个不同的补丁级数据集的8种不同子病理学分类的零射击和线性探测任务,以及跨模态检索任务上均超过了最先进的模型。

成为VIP会员查看完整内容
19

相关内容

【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
专知会员服务
15+阅读 · 2021年9月11日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
182+阅读 · 2023年3月24日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员