来自蚂蚁集团的研究者提出SOLAR(Self-supervised jOint LeArning for symmetric multimodal Retrieval),通过两阶段自监督框架,直接利用海量未标注的图文对学习对称检索能力。其核心是:随机图文对天然包含“共享语义”(交集)和“差异语义”(差集),SOLAR第一阶段学习自动识别这些区域,第二阶段利用掩码构造正负样本,无需人工标注。在人工验证的新基准上,SOLAR以少于50倍的参数规模和5倍小的嵌入维度,超越最强监督视觉语言模型(VLM)7.08个性能点。这项工作打破了长期存在的标注瓶颈,为对称多模态检索开辟了自监督范式,值得所有关注多模态检索、自监督学习的研究者与工程师仔细研读。
**
对称多模态到多模态(MM2MM)检索要求查询和内容在语义上等价且可互换,是一个未被充分探索的挑战。现有通用多模态检索方法受限于有标签的非对称数据集,无法胜任该任务。本文提出SOLAR,一个两阶段自监督框架,利用网络规模的未标注图文对进行训练。 第一阶段学习图文对的交集掩码(intersection mask),实现对共享内容的对齐同时保留差异语义。第二阶段利用该掩码,通过遮蔽交集构造正样本、遮蔽差异构造硬负样本,从而进行自监督多模态嵌入学习。为评估对称MM2MM检索,本文还提供了一个包含高质量人工验证正负样本对的新基准及对应评估流程。在十个SOTA方法的对比中,SOLAR超越最强监督VLM 7.08个性能点,同时模型参数少50倍以上,嵌入维度小5倍。代码和基准将开源。
对称MM2MM检索在真实世界中广泛存在,然而现有通用多模态检索方法完全无法应对。原因在于三方面瓶颈。
第一,数据形式不匹配。现有方法如UniIR、VLM2Vec、MM-Embed等均采用监督学习范式,训练数据来自人工标注或自动构造的非对称数据集:查询和内容有固定角色(例如“以图搜文”或“以文搜图”)。对称检索要求查询和内容可互换,意味着正样本对必须语义等价且来自不同模态组合,现有标注数据不符合此结构。 第二,人工标注成本极高。构建对称正负样本需要人类对“语义等价”做出微妙判断,例如判断“一件正面有熊猫图案的T恤,背面印有字母S”与“一件男孩穿的白色T恤,正面字母S”是否为同一商品。这种判断需要综合理解隐含属性(颜色、适用人群等),人工标注耗时且昂贵,无法规模化。 第三,数据合成方法不可靠。近期尝试使用生成模型自动构造样本(如Zhang et al. 2024),但受限于生成模型能力,低质量样本难以过滤,导致训练效果不佳。数据瓶颈成为核心路障。 本文提出SOLAR,彻底打破这一僵局。核心洞察是:任意未标注的图文对本身天然包含对称检索所需的监督信号。一个典型图文对中,图像和文本共享部分语义(交集),又各自携带模态特有的细节(差集)。若能自动识别并利用这一结构,便可从大规模网络数据中学习对称检索能力,无需任何人工标注。SOLAR的两阶段自监督框架正是为此设计:第一阶段学习交集掩码,第二阶段基于掩码构造对比学习的正负样本,从而端到端训练嵌入模型。
SOLAR框架包含两个训练阶段和一个推理管道。整体架构如图3所示(原论文第4页)。下面按阶段详细介绍。
阶段1的目标是为每个未标注的图文对学习一个交集掩码(intersection mask),该掩码标识图像和文本中共享语义的区域,同时保留各自的差异信息。 该阶段包含三个关键组件: 1. 全局到局部对齐(Global-to-Local Alignment, LGLA)
给定图像 ( I ) 和文本 ( T ),首先通过图像编码器和文本编码器分别提取全局特征和局部特征(如图块特征、单词特征)。LGLA模块通过跨模态注意力机制,在特征空间中找到图像子区域和文本子单词之间的对应关系。这种对齐信号为后续学习交集掩码提供了初步的软对应关系。 2. 局部蒸馏(Local Distillation, LLD)
为了提升对齐的鲁棒性,LLD将教师模型(如预训练的CLIP)的跨模态对齐知识蒸馏到学生模型(SOLAR框架中的编码器)的局部特征上。教师模型提供更准确的语义对应关系,学生模型通过蒸馏学习,使得局部对齐更加精确。 3. 掩码生成与目标函数
基于LGLA和LLD的输出,Mask Generation模块为图像和文本分别生成二值化掩码:掩码值为1的区域表示属于“交集”(共享概念),值为0的区域表示属于“差集”(模态特有信息)。掩码的生成通过可微分阈值操作实现。 优化目标包括两个损失:
阶段2利用阶段1学到的掩码,为每个未标注的图文对构造正样本和硬负样本,然后对比学习得到一个高质量的对称多模态嵌入空间。 1. 图像分割与阈值判别(SegGen + QDA)
2. 正负样本构造
3. 对比学习损失
采用对比损失(Contrastive Loss, CL)进行训练,损失函数包含四个来源的样本:
损失函数形式为标准的InfoNCE变体,所有样本的嵌入通过共享的图像和文本编码器获得。训练目标是使得正样本对的嵌入距离小,负样本对的嵌入距离大。整个过程中,编码器参数被优化。
推理与训练共享编码器。给定一个多模态查询(图像+文本),SOLAR将其输入图像编码器和文本编码器,分别得到嵌入,然后通过串联或平均池化得到多模态查询嵌入。检索时,在候选库的所有多模态项上计算相似度(内积或余弦),返回Top-K结果。由于训练中已经学习了对称性,因此查询和内容可以任意互换,搜索结果保持一致。
原文未明确说明实验设置细节,例如训练数据规模、图像编码器架构(如ViT大小)、文本编码器类型、批次大小、学习率等超参数,但在附录中可能包含更多信息。评估在本文新构建的基准上进行。
为了评估对称MM2MM检索,SOLAR伴随提出了一个新基准,包含高质量人工验证的正样本对和硬负样本对。数据构造流程如下(如图2所示):
与十种SOTA方法的对比结果(主表原论文未提供具体数值,但描述如下):
这一结果极具说服力:自监督方法不仅不需要标注数据,而且以极低的计算成本获得了显著优越的检索质量。强监督VLM虽然参数量巨大、嵌入维度高,但在对称MM2MM任务上表现不佳,因为它们从未针对对称结构进行训练。
原文未明确说明消融分析结果。但论文在图4中展示了阶段1的训练损失曲线(不同设置下的LITC和LGD损失变化),初步验证了掩码生成和蒸馏策略的收敛性。具体每个组件(如LGLA、LLD、QDA)的贡献量尚未以表格形式呈现。整体而言,SOLAR框架作为整体被验证有效,但内部贡献的量化分析有待后续研究补充。
原文未明确说明局限性。从方法本身推测,可能的局限包括:第一阶段掩码生成的质量依赖于预训练教师模型(如CLIP);第二阶段的分割和QDA引入额外超参数;实验仅在特定基准上验证,泛化到更广泛场景(如多语言、视频-文本)尚未评估。但这些仅为合理推测,原文并未确认。
SOLAR的工作为多模态检索提供了全新的自监督范式。它表明:当任务具有特定结构(如对称性)时,可以设计专门的自监督信号,从无标注数据中学习,从而突破监督学习的数据瓶颈。这一思路可推广到其他需要理解“多模态组合语义”的任务,如视觉问答、跨模态生成等。对于工业界电商搜索、新闻推荐等对称检索场景,SOLAR提供了一套既轻量又有效的基础方案。