FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis - 专知论文

会员服务 ·

0

粒度 · FG · 细粒度 · 粗粒度 · 文本检索 ·

FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis

翻译：FiCo-ITR：桥接细粒度与粗粒度图像-文本检索以进行性能对比分析

Mikel Williams-Lekuona,Georgina Cosma

from arxiv, Published at the International Journal of Multimedia Information Retrieval

In the field of Image-Text Retrieval (ITR), recent advancements have leveraged large-scale Vision-Language Pretraining (VLP) for Fine-Grained (FG) instance-level retrieval, achieving high accuracy at the cost of increased computational complexity. For Coarse-Grained (CG) category-level retrieval, prominent approaches employ Cross-Modal Hashing (CMH) to prioritise efficiency, albeit at the cost of retrieval performance. Due to differences in methodologies, FG and CG models are rarely compared directly within evaluations in the literature, resulting in a lack of empirical data quantifying the retrieval performance-efficiency tradeoffs between the two. This paper addresses this gap by introducing the \texttt{FiCo-ITR} library, which standardises evaluation methodologies for both FG and CG models, facilitating direct comparisons. We conduct empirical evaluations of representative models from both subfields, analysing precision, recall, and computational complexity across varying data scales. Our findings offer new insights into the performance-efficiency trade-offs between recent representative FG and CG models, highlighting their respective strengths and limitations. These findings provide the foundation necessary to make more informed decisions regarding model selection for specific retrieval tasks and highlight avenues for future research into hybrid systems that leverage the strengths of both FG and CG approaches.

翻译：在图像-文本检索（ITR）领域，近期的进展利用大规模视觉-语言预训练（VLP）进行细粒度（FG）实例级检索，以增加计算复杂度为代价实现了高精度。对于粗粒度（CG）类别级检索，主流方法采用跨模态哈希（CMH）以优先保证效率，但这是以牺牲检索性能为代价的。由于方法论的差异，文献中的评估很少直接比较FG和CG模型，导致缺乏量化两者之间检索性能与效率权衡的经验数据。本文通过引入 \texttt{FiCo-ITR} 库来解决这一空白，该库标准化了FG和CG模型的评估方法，促进了直接比较。我们对这两个子领域的代表性模型进行了实证评估，分析了不同数据规模下的精确率、召回率和计算复杂度。我们的研究结果为近期代表性FG和CG模型之间的性能-效率权衡提供了新的见解，突出了它们各自的优势和局限性。这些发现为针对特定检索任务做出更明智的模型选择决策提供了必要的基础，并指明了未来研究的方向，即开发能够利用FG和CG方法各自优势的混合系统。

0

相关内容

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

8+阅读 · 2025年5月18日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知会员服务

23+阅读 · 2021年11月21日

细粒度图像分类的深度学习方法

细粒度图像分类的深度学习方法

专知会员服务

43+阅读 · 2021年10月18日

【CVPR2021】深度学习细粒度视觉分析

【CVPR2021】深度学习细粒度视觉分析

专知会员服务

36+阅读 · 2021年6月23日

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

专知会员服务

38+阅读 · 2021年6月21日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【旷视出品】细粒度图像分析综述

【旷视出品】细粒度图像分析综述

专知

15+阅读 · 2019年7月11日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

新型粒子鉴别探测器技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models

Arxiv

0+阅读 · 1月28日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 1月23日

Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

Arxiv

0+阅读 · 1月22日

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration

Arxiv

0+阅读 · 1月20日

Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning

Arxiv

0+阅读 · 1月16日

FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis

Arxiv

0+阅读 · 1月16日

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

Arxiv

0+阅读 · 1月15日

Fine-Grained Human Pose Editing Assessment via Layer-Selective MLLMs

Arxiv

0+阅读 · 1月15日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

8+阅读 · 2025年5月18日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知会员服务

23+阅读 · 2021年11月21日

细粒度图像分类的深度学习方法

细粒度图像分类的深度学习方法

专知会员服务

43+阅读 · 2021年10月18日

【CVPR2021】深度学习细粒度视觉分析

【CVPR2021】深度学习细粒度视觉分析

专知会员服务

36+阅读 · 2021年6月23日

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

专知会员服务

38+阅读 · 2021年6月21日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【旷视出品】细粒度图像分析综述

【旷视出品】细粒度图像分析综述

专知

15+阅读 · 2019年7月11日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

相关论文

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models

Arxiv

0+阅读 · 1月28日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 1月23日

Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

Arxiv

0+阅读 · 1月22日

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration

Arxiv

0+阅读 · 1月20日

Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning

Arxiv

0+阅读 · 1月16日

FiCo-ITR: bridging fine-grained and coarse-grained image-text retrieval for comparative performance analysis

Arxiv

0+阅读 · 1月16日

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

Arxiv

0+阅读 · 1月15日

Fine-Grained Human Pose Editing Assessment via Layer-Selective MLLMs

Arxiv

0+阅读 · 1月15日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

新型粒子鉴别探测器技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员