Composed Video Retrieval (CoVR) retrieves a target video given a query video and a modification text describing the intended change. Existing CoVR benchmarks emphasize appearance shifts or coarse event changes and therefore do not test the ability to capture subtle, fast-paced temporal differences. We introduce TF-CoVR, the first large-scale benchmark dedicated to temporally fine-grained CoVR. TF-CoVR focuses on gymnastics and diving, and provides 180K triplets drawn from FineGym and FineDiving datasets. Previous CoVR benchmarks, focusing on temporal aspect, link each query to a single target segment taken from the same video, limiting practical usefulness. In TF-CoVR, we instead construct each <query, modification> pair by prompting an LLM with the label differences between clips drawn from different videos; every pair is thus associated with multiple valid target videos (3.9 on average), reflecting real-world tasks such as sports-highlight generation. To model these temporal dynamics, we propose TF-CoVR-Base, a concise two-stage training framework: (i) pre-train a video encoder on fine-grained action classification to obtain temporally discriminative embeddings; (ii) align the composed query with candidate videos using contrastive learning. We conduct the first comprehensive study of image, video, and general multimodal embedding (GME) models on temporally fine-grained composed retrieval in both zero-shot and fine-tuning regimes. On TF-CoVR, TF-CoVR-Base improves zero-shot mAP@50 from 5.92 (LanguageBind) to 7.51, and after fine-tuning raises the state-of-the-art from 19.83 to 27.22.


翻译:组合视频检索(CoVR)旨在给定一个查询视频和一个描述预期变化的修改文本,检索出目标视频。现有的CoVR基准数据集主要关注外观变化或粗粒度的事件改变,因此未能有效检验模型捕捉细微、快速时间差异的能力。我们提出了TF-CoVR,这是首个专门针对时间细粒度CoVR的大规模基准数据集。TF-CoVR聚焦于体操和跳水项目,基于FineGym和FineDiving数据集构建了18万个三元组。以往关注时间维度的CoVR基准通常将每个查询与同一视频中的单个目标片段关联,限制了实际应用价值。在TF-CoVR中,我们通过向大语言模型输入来自不同视频片段间的标签差异来构建每个<查询,修改>对;每个查询对因此关联多个有效目标视频(平均3.9个),这反映了体育集锦生成等实际任务需求。为建模这些时间动态特性,我们提出了TF-CoVR-Base——一个简洁的两阶段训练框架:(i)通过细粒度动作分类预训练视频编码器以获得具有时间判别性的嵌入表示;(ii)利用对比学习将组合查询与候选视频对齐。我们首次在零样本和微调两种模式下,系统评估了图像、视频及通用多模态嵌入模型在时间细粒度组合检索任务上的性能。在TF-CoVR数据集上,TF-CoVR-Base将零样本mAP@50从5.92(LanguageBind)提升至7.51,微调后将最优结果从19.83显著提升至27.22。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员