Video temporal grounding (VTG) aims to localize the start and end timestamps of the event described by a given query within an untrimmed video. Despite the strong open-world video understanding and recognition ability of video language large models (Vid-LLMs), outputting precise temporal grounding information remains challenging, since explicit temporal cues are scarce in untrimmed videos, and query-relevant entities are hard to track consistently across the video timeline. In this paper, we present \MarkIt{}, a training-free framework that transforms an input video into a query-conditioned marked video, which empowers Vid-LLMs to generate more reliable temporal localization predictions. The core component of \MarkIt{} is an annotation-free query-to-mask grounding bridge (Q2M-Bridge). Given a natural-language query, it automatically derives a compact set of canonical subject tags through linguistic parsing and normalization, then maps these tags to query-conditioned instance masks using text-conditioned open-vocabulary segmentation. The bridge also embeds lightweight semantic instance markers and a persistent frame index into each frame, effectively transforming long-range temporal reasoning into explicit visual cues for Vid-LLMs. \MarkIt{} adopts an inference-time plug-and-play design, needs no modifications to Vid-LLM weights, and is fully compatible with supervised fine-tuning. Experiments conducted on multiple mainstream moment retrieval and highlight detection benchmarks demonstrate that \MarkIt {} achieves state-of-the-art results, delivering consistent temporal grounding improvements across a wide range of existing models.


翻译:视频时间定位(VTG)旨在于未裁剪视频中定位给定查询所描述事件的起始与结束时间戳。尽管视频语言大模型(Vid-LLMs)具备强大的开放世界视频理解与识别能力,但由于未裁剪视频中显式时间线索稀缺,且查询相关实体难以在视频时间线上持续稳定追踪,输出精确的时间定位信息仍具挑战。本文提出MarkIt{}——一个无需训练框架,可将输入视频转换为查询条件化的标记视频,从而赋能Vid-LLMs生成更可靠的时间定位预测。MarkIt{}的核心组件为无标注查询到掩码定位桥梁(Q2M-Bridge)。对于自然语言查询,该桥梁通过语言解析与规范化自动推导出紧凑的规范主体标签集合,进而利用文本条件化的开放词汇分割将标签映射为查询条件化的实例掩码。该桥梁还将轻量级语义实例标记与持久帧索引嵌入每一帧,有效将长距离时间推理转化为Vid-LLMs的显式视觉线索。MarkIt{}采用推理即用的即插即用设计,无需修改Vid-LLM权重,且完全兼容监督微调。在多个主流时刻检索与高光检测基准上的实验表明,MarkIt{}取得了最先进的结果,并在广泛现有模型中实现一致的时间定位性能提升。

0
下载
关闭预览

相关内容

【ACMMM2025】通过因果推理提升时间句子定位性能
专知会员服务
12+阅读 · 2025年7月9日
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
25+阅读 · 2022年1月29日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
视觉里程计:特征点法之全面梳理
计算机视觉life
12+阅读 · 2017年8月2日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
视觉里程计:特征点法之全面梳理
计算机视觉life
12+阅读 · 2017年8月2日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员