Grounding events in videos serves as a fundamental capability in video analysis. While Vision-Language Models (VLMs) are increasingly employed for this task, existing approaches predominantly train models to associate events with timestamps in the forward video only. This paradigm hinders VLMs from capturing the inherent temporal structure and directionality of events, thereby limiting robustness and generalization. To address this limitation, inspired by the arrow of time in physics, which characterizes the intrinsic directionality of temporal processes, we propose ArrowGEV, a reinforcement learning framework that explicitly models temporal directionality in events to improve both event grounding and temporal directionality understanding in VLMs. Specifically, we categorize events into time-sensitive (e.g., putting down a bag) and time-insensitive (e.g., holding a towel in the left hand). The former denote events whose reversal substantially alters their meaning, while the latter remain semantically unchanged under reversal. For time-sensitive events, ArrowGEV introduces a reward that encourages VLMs to discriminate between forward and backward videos, whereas for time-insensitive events, it enforces consistent grounding across both directions. Extensive experiments demonstrate that ArrowGEV not only improves grounding precision and temporal directionality recognition, but also enhances general video understanding and reasoning ability.


翻译:视频事件定位是视频分析中的一项基础能力。尽管视觉语言模型(VLMs)越来越多地被用于此任务,但现有方法主要训练模型仅在前向视频中将事件与时间戳关联。这种范式阻碍了VLMs捕捉事件固有的时间结构和方向性,从而限制了其鲁棒性和泛化能力。为解决这一局限,受物理学中表征时间过程内在方向性的“时间箭头”概念启发,我们提出了ArrowGEV——一个强化学习框架,它显式地对事件中的时间方向性进行建模,以同时提升VLMs的事件定位能力和时间方向性理解。具体而言,我们将事件分为时间敏感型(例如“放下包”)和时间不敏感型(例如“左手拿着毛巾”)。前者指反转会显著改变其含义的事件,而后者在反转下语义保持不变。对于时间敏感事件,ArrowGEV引入一种奖励机制,鼓励VLMs区分前向与后向视频;对于时间不敏感事件,则强制要求模型在两个方向上保持一致的定位结果。大量实验表明,ArrowGEV不仅提高了定位精度和时间方向性识别能力,还增强了通用的视频理解与推理能力。

0
下载
关闭预览

相关内容

【博士论文】视频理解:时间维度的深度透视
专知会员服务
7+阅读 · 2月5日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
《遥感时序视觉语言模型》全面综述
专知会员服务
30+阅读 · 2024年12月4日
专知会员服务
29+阅读 · 2021年9月13日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
5+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
2+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关VIP内容
【博士论文】视频理解:时间维度的深度透视
专知会员服务
7+阅读 · 2月5日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
《遥感时序视觉语言模型》全面综述
专知会员服务
30+阅读 · 2024年12月4日
专知会员服务
29+阅读 · 2021年9月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员