Contrastive Language-Image Pre-Training (CLIP) is a popular method for learning multimodal latent spaces with well-organized semantics. Despite its wide range of applications, CLIP's latent space is known to fail at handling complex visual-textual interactions. Recent works attempt to address its shortcomings with data-centric or algorithmic approaches. But what if the problem is more fundamental, and lies in the geometry of CLIP? Toward this end, we rigorously analyze CLIP's latent space properties, and prove that no CLIP-like joint embedding space exists which can correctly do any two of the following at the same time: 1. represent basic descriptions and image content, 2. represent attribute binding, 3. represent spatial location and relationships, 4. represent negation. Informed by this analysis, we propose Dense Cosine Similarity Maps (DCSMs) as a principled and interpretable scoring method for CLIP-like models, which solves the fundamental limitations of CLIP by retaining the semantic topology of the image patches and text tokens. This method improves upon the performance of classical CLIP-like joint encoder models on a wide array of benchmarks. We share our code and data here for reproducibility: https://github.com/Raphoo/DCSM_Ideal_CLIP


翻译:对比语言-图像预训练(CLIP)是一种广泛用于学习具有良好组织语义的多模态潜在空间的方法。尽管应用广泛,但已知CLIP的潜在空间在处理复杂的视觉-文本交互方面存在不足。近期研究尝试通过以数据为中心或算法驱动的方法来解决其缺陷。但若问题更为根本,且源于CLIP的几何结构呢?为此,我们严格分析了CLIP潜在空间的性质,并证明不存在任何类CLIP的联合嵌入空间能够同时正确实现以下任意两项功能:1. 表示基本描述与图像内容,2. 表示属性绑定,3. 表示空间位置与关系,4. 表示否定。基于此分析,我们提出密集余弦相似度映射(DCSMs)作为类CLIP模型的一种原则性且可解释的评分方法,该方法通过保留图像块与文本标记的语义拓扑结构,解决了CLIP的根本性局限。此方法在多种基准测试中提升了经典类CLIP联合编码器模型的性能。我们在此公开代码与数据以确保可复现性:https://github.com/Raphoo/DCSM_Ideal_CLIP

0
下载
关闭预览

相关内容

【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
8+阅读 · 2025年5月18日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
缩小CLIP规模:数据、架构与训练策略的全面分析
专知会员服务
22+阅读 · 2024年4月15日
《多模态大模型少样本自适应》综述
专知会员服务
103+阅读 · 2024年1月4日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
13+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
3+阅读 · 4月12日
相关VIP内容
【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
8+阅读 · 2025年5月18日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
缩小CLIP规模:数据、架构与训练策略的全面分析
专知会员服务
22+阅读 · 2024年4月15日
《多模态大模型少样本自适应》综述
专知会员服务
103+阅读 · 2024年1月4日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员