Image-text retrieval, as a fundamental and important branch of information retrieval, has attracted extensive research attentions. The main challenge of this task is cross-modal semantic understanding and matching. Some recent works focus more on fine-grained cross-modal semantic matching. With the prevalence of large scale multimodal pretraining models, several state-of-the-art models (e.g. X-VLM) have achieved near-perfect performance on widely-used image-text retrieval benchmarks, i.e. MSCOCO-Test-5K and Flickr30K-Test-1K. In this paper, we review the two common benchmarks and observe that they are insufficient to assess the true capability of models on fine-grained cross-modal semantic matching. The reason is that a large amount of images and texts in the benchmarks are coarse-grained. Based on the observation, we renovate the coarse-grained images and texts in the old benchmarks and establish the improved benchmarks called MSCOCO-FG and Flickr30K-FG. Specifically, on the image side, we enlarge the original image pool by adopting more similar images. On the text side, we propose a novel semi-automatic renovation approach to refine coarse-grained sentences into finer-grained ones with little human effort. Furthermore, we evaluate representative image-text retrieval models on our new benchmarks to demonstrate the effectiveness of our method. We also analyze the capability of models on fine-grained semantic comprehension through extensive experiments. The results show that even the state-of-the-art models have much room for improvement in fine-grained semantic understanding, especially in distinguishing attributes of close objects in images. Our code and improved benchmark datasets are publicly available at: https://github.com/cwj1412/MSCOCO-Flikcr30K_FG, which we hope will inspire further in-depth research on cross-modal retrieval.


翻译:图文检索作为信息检索中一个基础且重要的分支,已吸引了广泛的研究关注。该任务的主要挑战在于跨模态语义理解与匹配。近期一些研究更侧重于细粒度的跨模态语义匹配。随着大规模多模态预训练模型的普及,若干最先进模型(如X-VLM)已在广泛使用的图文检索基准(即MSCOCO-Test-5K和Flickr30K-Test-1K)上取得了近乎完美的性能。本文中,我们重新审视了这两个常见基准,并观察到它们不足以评估模型在细粒度跨模态语义匹配上的真实能力,原因在于基准中大量图像和文本是粗粒度的。基于此观察,我们对旧基准中的粗粒度图像和文本进行了改造,并建立了改进后的基准,命名为MSCOCO-FG和Flickr30K-FG。具体而言,在图像方面,我们通过引入更相似的图像来扩大原始图像池;在文本方面,我们提出了一种新颖的半自动改造方法,仅需极少人工即可将粗粒度句子细化为更细粒度的句子。此外,我们在新基准上评估了代表性图文检索模型,以证明我们方法的有效性。我们还通过大量实验分析了模型在细粒度语义理解方面的能力。结果表明,即使是最先进的模型,在细粒度语义理解上仍有很大改进空间,尤其是在区分图像中相近物体的属性方面。我们的代码和改进后的基准数据集已公开于:https://github.com/cwj1412/MSCOCO-Flikcr30K_FG,希望这将激发跨模态检索领域的进一步深入研究。

0
下载
关闭预览

相关内容

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
21+阅读 · 2022年4月21日
专知会员服务
13+阅读 · 2021年10月11日
ECCV 2022 | 基于数据转移的细粒度场景图生成
PaperWeekly
0+阅读 · 2022年10月13日
论文浅尝 | 弱监督下极简的视觉语言预训练模型
开放知识图谱
1+阅读 · 2022年9月26日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月7日
Arxiv
18+阅读 · 2021年6月10日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
13+阅读 · 2018年1月11日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
8+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
2+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
21+阅读 · 2022年4月21日
专知会员服务
13+阅读 · 2021年10月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员