Edge-based representations are fundamental cues for visual understanding, a principle rooted in early vision research and still central today. We extend this principle to vision-language alignment, showing that isolating and aligning structural cues across modalities can greatly benefit fine-tuning on long, detail-rich captions, with a specific focus on improving cross-modal retrieval. We introduce StructXLIP, a fine-tuning alignment paradigm that extracts edge maps (e.g., Canny), treating them as proxies for the visual structure of an image, and filters the corresponding captions to emphasize structural cues, making them "structure-centric". Fine-tuning augments the standard alignment loss with three structure-centric losses: (i) aligning edge maps with structural text, (ii) matching local edge regions to textual chunks, and (iii) connecting edge maps to color images to prevent representation drift. From a theoretical standpoint, while standard CLIP maximizes the mutual information between visual and textual embeddings, StructXLIP additionally maximizes the mutual information between multimodal structural representations. This auxiliary optimization is intrinsically harder, guiding the model toward more robust and semantically stable minima, enhancing vision-language alignment. Beyond outperforming current competitors on cross-modal retrieval in both general and specialized domains, our method serves as a general boosting recipe that can be integrated into future approaches in a plug-and-play manner. Code and pretrained models are publicly available at: https://github.com/intelligolabs/StructXLIP.


翻译:基于边缘的表示是视觉理解的基本线索,这一原则源于早期视觉研究,至今仍是核心。我们将这一原则扩展到视觉语言对齐,表明跨模态分离和对齐结构线索可以极大地受益于对长且细节丰富的描述的微调,特别侧重于改进跨模态检索。我们引入了StructXLIP,一种微调对齐范式,该范式提取边缘图(例如Canny),将其视为图像视觉结构的代理,并过滤相应的描述以强调结构线索,使其成为“以结构为中心”的。微调通过三种以结构为中心的损失增强了标准对齐损失:(i) 将边缘图与结构文本对齐,(ii) 将局部边缘区域与文本块匹配,以及(iii) 将边缘图与彩色图像连接以防止表示漂移。从理论角度来看,标准CLIP最大化视觉和文本嵌入之间的互信息,而StructXLIP额外最大化多模态结构表示之间的互信息。这种辅助优化本质上更困难,引导模型朝向更鲁棒和语义更稳定的最小值,从而增强视觉语言对齐。除了在通用和专门领域的跨模态检索中优于当前竞争对手外,我们的方法作为一种通用的增强方案,可以以即插即用的方式集成到未来方法中。代码和预训练模型公开于:https://github.com/intelligolabs/StructXLIP。

0
下载
关闭预览

相关内容

【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员