Zero-shot video moment retrieval (ZVMR) is the task of localizing a temporal moment within an untrimmed video using a natural language query without relying on task-specific training data. The primary challenge in this setting lies in the mismatch in semantic granularity between textual queries and visual content. Previous studies in ZVMR have attempted to achieve alignment by leveraging high-quality pre-trained knowledge that represents video and language in a joint space. However, these approaches failed to balance the semantic granularity between the pre-trained knowledge provided by each modality for a given scene. As a result, despite the high quality of each modality's representations, the mismatch in granularity led to inaccurate retrieval. In this paper, we propose a training-free framework, called Granularity-Aware Alignment (GranAlign), that bridges this gap between coarse and fine semantic representations. Our approach introduces two complementary techniques: granularity-based query rewriting to generate varied semantic granularities, and query-aware caption generation to embed query intent into video content. By pairing multi-level queries with both query-agnostic and query-aware captions, we effectively resolve semantic mismatches. As a result, our method sets a new state-of-the-art across all three major benchmarks (QVHighlights, Charades-STA, ActivityNet-Captions), with a notable 3.23% mAP@avg improvement on the challenging QVHighlights dataset.


翻译:零样本视频片段检索(ZVMR)是在未经剪辑的视频中,利用自然语言查询定位时间片段的任务,且不依赖于特定任务的训练数据。该任务的主要挑战在于文本查询与视觉内容之间的语义粒度不匹配。先前关于ZVMR的研究尝试通过利用在联合空间中表示视频和语言的高质量预训练知识来实现对齐。然而,这些方法未能平衡给定场景下各模态所提供的预训练知识之间的语义粒度。因此,尽管各模态的表征质量很高,但粒度的不匹配导致了检索不准确。本文提出了一种无需训练的框架,称为粒度感知对齐(GranAlign),旨在弥合粗粒度与细粒度语义表征之间的差距。我们的方法引入了两种互补技术:基于粒度的查询重写以生成多样化的语义粒度,以及查询感知的标题生成以将查询意图嵌入视频内容。通过将多层级查询与查询无关及查询感知的标题配对,我们有效地解决了语义不匹配问题。因此,我们的方法在全部三个主要基准数据集(QVHighlights、Charades-STA、ActivityNet-Captions)上均取得了新的最优性能,其中在具有挑战性的QVHighlights数据集上实现了显著的3.23% mAP@avg提升。

0
下载
关闭预览

相关内容

【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
12+阅读 · 2025年3月26日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
12+阅读 · 2025年3月26日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员