Zero-shot video moment retrieval (ZVMR) is the task of localizing a temporal moment within an untrimmed video using a natural language query without relying on task-specific training data. The primary challenge in this setting lies in the mismatch in semantic granularity between textual queries and visual content. Previous studies in ZVMR have attempted to achieve alignment by leveraging high-quality pre-trained knowledge that represents video and language in a joint space. However, these approaches failed to balance the semantic granularity between the pre-trained knowledge provided by each modality for a given scene. As a result, despite the high quality of each modality's representations, the mismatch in granularity led to inaccurate retrieval. In this paper, we propose a training-free framework, called Granularity-Aware Alignment (GranAlign), that bridges this gap between coarse and fine semantic representations. Our approach introduces two complementary techniques: granularity-based query rewriting to generate varied semantic granularities, and query-aware caption generation to embed query intent into video content. By pairing multi-level queries with both query-agnostic and query-aware captions, we effectively resolve semantic mismatches. As a result, our method sets a new state-of-the-art across all three major benchmarks (QVHighlights, Charades-STA, ActivityNet-Captions), with a notable 3.23% mAP@avg improvement on the challenging QVHighlights dataset.


翻译:零样本视频片段检索(ZVMR)是在未经剪辑的视频中,利用自然语言查询定位时间片段的任务,且不依赖于特定任务的训练数据。该任务的主要挑战在于文本查询与视觉内容之间的语义粒度不匹配。先前关于ZVMR的研究尝试通过利用在联合空间中表示视频和语言的高质量预训练知识来实现对齐。然而,这些方法未能平衡给定场景下各模态所提供的预训练知识之间的语义粒度。因此,尽管各模态的表征质量很高,但粒度的不匹配导致了检索不准确。本文提出了一种无需训练的框架,称为粒度感知对齐(GranAlign),旨在弥合粗粒度与细粒度语义表征之间的差距。我们的方法引入了两种互补技术:基于粒度的查询重写以生成多样化的语义粒度,以及查询感知的标题生成以将查询意图嵌入视频内容。通过将多层级查询与查询无关及查询感知的标题配对,我们有效地解决了语义不匹配问题。因此,我们的方法在全部三个主要基准数据集(QVHighlights、Charades-STA、ActivityNet-Captions)上均取得了新的最优性能,其中在具有挑战性的QVHighlights数据集上实现了显著的3.23% mAP@avg提升。

0
下载
关闭预览

相关内容

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【WWW2021】本体增强零样本学习
专知会员服务
35+阅读 · 2021年2月26日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员