Is CLIP ideal? No. Can we fix it? Yes! - 专知论文

会员服务 ·

0

CLIP · 表示 · 潜在 · 结构 · 分析 ·

Is CLIP ideal? No. Can we fix it? Yes!

翻译：CLIP是否理想？并非如此。能否修复它？可以！

Raphi Kang,Yue Song,Georgia Gkioxari,Pietro Perona

from arxiv, ICCV 2025

Contrastive Language-Image Pre-Training (CLIP) is a popular method for learning multimodal latent spaces with well-organized semantics. Despite its wide range of applications, CLIP's latent space is known to fail at handling complex visual-textual interactions. Recent works attempt to address its shortcomings with data-centric or algorithmic approaches. But what if the problem is more fundamental, and lies in the geometry of CLIP? Toward this end, we rigorously analyze CLIP's latent space properties, and prove that no CLIP-like joint embedding space exists which can correctly do any two of the following at the same time: 1. represent basic descriptions and image content, 2. represent attribute binding, 3. represent spatial location and relationships, 4. represent negation. Informed by this analysis, we propose Dense Cosine Similarity Maps (DCSMs) as a principled and interpretable scoring method for CLIP-like models, which solves the fundamental limitations of CLIP by retaining the semantic topology of the image patches and text tokens. This method improves upon the performance of classical CLIP-like joint encoder models on a wide array of benchmarks. We share our code and data here for reproducibility: https://github.com/Raphoo/DCSM_Ideal_CLIP

翻译：对比语言-图像预训练（CLIP）是一种广泛用于学习具有良好组织语义的多模态潜在空间的方法。尽管应用广泛，但已知CLIP的潜在空间在处理复杂的视觉-文本交互方面存在不足。近期研究尝试通过以数据为中心或算法驱动的方法来解决其缺陷。但若问题更为根本，且源于CLIP的几何结构呢？为此，我们严格分析了CLIP潜在空间的性质，并证明不存在任何类CLIP的联合嵌入空间能够同时正确实现以下任意两项功能：1. 表示基本描述与图像内容，2. 表示属性绑定，3. 表示空间位置与关系，4. 表示否定。基于此分析，我们提出密集余弦相似度映射（DCSMs）作为类CLIP模型的一种原则性且可解释的评分方法，该方法通过保留图像块与文本标记的语义拓扑结构，解决了CLIP的根本性局限。此方法在多种基准测试中提升了经典类CLIP联合编码器模型的性能。我们在此公开代码与数据以确保可复现性：https://github.com/Raphoo/DCSM_Ideal_CLIP

0

相关内容

CLIP

【ICML2025】LADA：用于持续学习的可扩展标签特定型 CLIP 适配器

【ICML2025】LADA：用于持续学习的可扩展标签特定型 CLIP 适配器

专知会员服务

8+阅读 · 2025年5月31日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

8+阅读 · 2025年5月18日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

专知会员服务

15+阅读 · 2025年2月24日

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

专知会员服务

20+阅读 · 2024年8月6日

缩小CLIP规模：数据、架构与训练策略的全面分析

缩小CLIP规模：数据、架构与训练策略的全面分析

专知会员服务

22+阅读 · 2024年4月15日

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

专知会员服务

35+阅读 · 2024年1月13日

《多模态大模型少样本自适应》综述

《多模态大模型少样本自适应》综述

专知会员服务

103+阅读 · 2024年1月4日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

LeCun力荐，PyTorch官方权威教程书来了，意外的通俗易懂

LeCun力荐，PyTorch官方权威教程书来了，意外的通俗易懂

机器之心

22+阅读 · 2019年11月22日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

图像分割中若干图论问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics

Arxiv

0+阅读 · 4月27日

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

Arxiv

0+阅读 · 4月24日

CLIP-SVD: Efficient and Interpretable Vision-Language Adaptation via Singular Values

Arxiv

0+阅读 · 4月22日

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Arxiv

0+阅读 · 4月20日

Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models

Arxiv

0+阅读 · 4月7日

Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP

Arxiv

0+阅读 · 4月7日

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Arxiv

0+阅读 · 3月25日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Arxiv

0+阅读 · 2月24日

Closing the gap in multimodal medical representation alignment

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

1+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

1+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

5+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

3+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

4+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

4+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

【ICML2025】LADA：用于持续学习的可扩展标签特定型 CLIP 适配器

【ICML2025】LADA：用于持续学习的可扩展标签特定型 CLIP 适配器

专知会员服务

8+阅读 · 2025年5月31日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

8+阅读 · 2025年5月18日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

专知会员服务

15+阅读 · 2025年2月24日

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

专知会员服务

20+阅读 · 2024年8月6日

缩小CLIP规模：数据、架构与训练策略的全面分析

缩小CLIP规模：数据、架构与训练策略的全面分析

专知会员服务

22+阅读 · 2024年4月15日

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

专知会员服务

35+阅读 · 2024年1月13日

《多模态大模型少样本自适应》综述

《多模态大模型少样本自适应》综述

专知会员服务

103+阅读 · 2024年1月4日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

LeCun力荐，PyTorch官方权威教程书来了，意外的通俗易懂

LeCun力荐，PyTorch官方权威教程书来了，意外的通俗易懂

机器之心

22+阅读 · 2019年11月22日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics

Arxiv

0+阅读 · 4月27日

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

Arxiv

0+阅读 · 4月24日

CLIP-SVD: Efficient and Interpretable Vision-Language Adaptation via Singular Values

Arxiv

0+阅读 · 4月22日

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Arxiv

0+阅读 · 4月20日

Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models

Arxiv

0+阅读 · 4月7日

Perturb and Recover: Fine-tuning for Effective Backdoor Removal from CLIP

Arxiv

0+阅读 · 4月7日

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Arxiv

0+阅读 · 3月25日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Arxiv

0+阅读 · 2月24日

Closing the gap in multimodal medical representation alignment

Arxiv

0+阅读 · 2月23日

相关基金

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

图像分割中若干图论问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员