Multimodal retrieval has emerged as a promising yet challenging research direction in recent years. Most existing studies in multimodal retrieval focus on capturing information in multimodal data that is similar to their paired texts, but often ignores the complementary information contained in multimodal data. In this study, we propose CIEA, a novel multimodal retrieval approach that employs Complementary Information Extraction and Alignment, which transforms both text and images in documents into a unified latent space and features a complementary information extractor designed to identify and preserve differences in the image representations. We optimize CIEA using two complementary contrastive losses to ensure semantic integrity and effectively capture the complementary information contained in images. Extensive experiments demonstrate the effectiveness of CIEA, which achieves significant improvements over both divide-and-conquer models and universal dense retrieval models. We provide an ablation study, further discussions, and case studies to highlight the advancements achieved by CIEA. To promote further research in the community, we have released the source code at https://github.com/zengdlong/CIEA.


翻译:近年来,多模态检索已成为一个前景广阔但充满挑战的研究方向。现有的大多数多模态检索研究侧重于捕获多模态数据中与其配对文本相似的信息,但往往忽略了多模态数据中包含的互补信息。在本研究中,我们提出了CIEA,一种新颖的多模态检索方法,它采用互补信息提取与对齐技术,将文档中的文本和图像都转换到一个统一的潜在空间,并配备了一个互补信息提取器,旨在识别并保留图像表征中的差异。我们使用两种互补的对比损失来优化CIEA,以确保语义完整性并有效捕获图像中包含的互补信息。大量实验证明了CIEA的有效性,相较于分治模型和通用稠密检索模型,它都取得了显著的性能提升。我们提供了消融研究、进一步讨论和案例研究,以凸显CIEA所取得的进展。为促进该领域的进一步研究,我们已在 https://github.com/zengdlong/CIEA 开源了源代码。

0
下载
关闭预览

相关内容

多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
多模态深度学习
专知会员服务
136+阅读 · 2023年1月15日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
专知会员服务
149+阅读 · 2020年9月6日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月16日
VIP会员
相关VIP内容
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
多模态深度学习
专知会员服务
136+阅读 · 2023年1月15日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
专知会员服务
149+阅读 · 2020年9月6日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员