Temporal grounding--returning the interval $[t_s, t_e]$ for a natural-language query over a video--is the language interface to long-form video, yet has been studied on short videos; the dynamics of hour-scale natural-language grounding remain underexplored. We take the position that at hour-scale, the binding constraint is search, not recognition: Video-LLMs are bottlenecked not by localizing a nearby event, but--given a natural-language query--by searching for the relevant region of a long video. To test this, we release ExtremeWhenBench, the first open hour-scale grounding benchmark (2,273 queries over 194 videos, mean 75.7 min, max 9 hr) with an open-form query distribution. Every open Video-LLM collapses while a frame-level retrieval baseline outperforms them; a failure taxonomy attributes 85% of failures to search; and a retrieve-then-ground hybrid recovers 6.7x over the monolithic Video-LLM--mirroring retrieve-then-read in open-domain QA.


翻译:时间定位——根据视频的自然语言查询返回区间 $[t_s, t_e]$——是长视频的语言接口,然而目前的研究仅限于短视频;小时级自然语言定位的动态机制仍未被充分探索。我们持这样的观点:在小时级尺度上,约束因素是搜索而非识别——视频大模型的瓶颈不在于定位附近的事件,而在于给定自然语言查询后,搜索长视频中的相关区域。为验证这一点,我们发布了ExtremeWhenBench,这是首个开放的小时级定位基准测试(涵盖194个视频中的2273个查询,平均时长75.7分钟,最长9小时),并采用开放式查询分布。所有开放视频大模型均表现不佳,而帧级检索基线却优于它们;失败分类法将85%的失败归因于搜索;检索后定位的混合方法性能比单一视频大模型提升了6.7倍——这类似于开放域问答中的“先检索后读取”模式。

0
下载
关闭预览

相关内容

【博士论文】视频理解:时间维度的深度透视
专知会员服务
7+阅读 · 2月5日
【ACMMM2025】通过因果推理提升时间句子定位性能
专知会员服务
12+阅读 · 2025年7月9日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
【李飞飞等NeurIPS2024论文】HourVideo:1小时视频-语言理解
专知会员服务
30+阅读 · 2024年11月10日
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
25+阅读 · 2022年1月29日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
一文带你读懂自然语言处理 - 事件提取
AI研习社
10+阅读 · 2019年5月10日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【博士论文】视频理解:时间维度的深度透视
专知会员服务
7+阅读 · 2月5日
【ACMMM2025】通过因果推理提升时间句子定位性能
专知会员服务
12+阅读 · 2025年7月9日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
【李飞飞等NeurIPS2024论文】HourVideo:1小时视频-语言理解
专知会员服务
30+阅读 · 2024年11月10日
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
25+阅读 · 2022年1月29日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员