Video Moment Retrieval (VMR) aims to localize temporal segments in videos that correspond to a natural language query, but typically assumes only a single matching moment for each query. This assumption does not always hold in real-world scenarios, where queries may correspond to multiple or no moments. Thus, we formulate Generalized Moment Retrieval (GMR), a unified setting that requires retrieving the complete set of relevant moments or predicting an empty set. To enable systematic study of GMR, we introduce Soccer-GMR, a large-scale benchmark built on challenging soccer videos that reflect general GMR scenarios, with realistic negative and positive queries. The benchmark is constructed via a duration-flexible semi-automated pipeline with human verification, enabling scalable data generation while maintaining high annotation quality. We further design a unified evaluation protocol with complementary metrics tailored for null-set rejection, positive-query localization, and end-to-end GMR performance. Finally, we establish strong baselines across two modeling paradigms: a lightweight plug-and-play GMR adapter for discriminative VMR models, and a GMR-tailored GRPO reward for fine-tuning multimodal large language models (MLLMs). Extensive experiments show consistent gains across all metrics and expose key limitations of current methods, positioning GMR as a more realistic and challenging benchmark for video-language understanding.


翻译:视频时刻检索(Video Moment Retrieval, VMR)旨在定位视频中与自然语言查询相对应的时间片段,但通常假设每个查询仅有一个匹配时刻。这一假设在现实场景中并不总是成立,因为查询可能对应多个时刻或没有时刻。为此,我们定义了广义时刻检索(Generalized Moment Retrieval, GMR),这是一种统一的任务设定,要求检索完整的相关时刻集合或预测空集。为了系统研究GMR,我们引入了Soccer-GMR,这是一个基于挑战性足球视频构建的大规模基准数据集,反映了通用的GMR场景,包含真实的负样本和正样本查询。该基准通过一种时长灵活的半自动化流程构建,并辅以人工验证,从而在保持高标注质量的同时实现可扩展的数据生成。我们进一步设计了一套统一的评估协议,采用互补的指标,分别针对空集拒绝、正样本查询定位以及端到端GMR性能进行评价。最后,我们跨两种建模范式建立了强基线:一种用于判别式VMR模型的轻量级即插即用GMR适配器,以及一种专为GMR设计的GRPO奖励函数,用于微调多模态大语言模型(MLLMs)。大量实验表明,在所有指标上均取得了一致提升,并揭示了当前方法的关键局限性,从而将GMR定位为视频-语言理解领域中一个更现实且更具挑战性的基准。

0
下载
关闭预览

相关内容

【ACMMM2025】通过因果推理提升时间句子定位性能
专知会员服务
12+阅读 · 2025年7月9日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
基于深度学习的视频目标检测综述
专知会员服务
84+阅读 · 2021年5月19日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
VIP会员
最新内容
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 16分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 31分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员