Reinforcement learning based post-training paradigms for Video Large Language Models (VideoLLMs) have achieved significant success by optimizing for visual-semantic tasks such as captioning or VideoQA. However, while these approaches effectively enhance perception abilities, they primarily target holistic content understanding, often lacking explicit supervision for intrinsic temporal coherence and inter-frame correlations. This tendency limits the models' ability to capture intricate dynamics and fine-grained visual causality. To explicitly bridge this gap, we propose a novel post-training objective: Masked Video Prediction (MVP). By requiring the model to reconstruct a masked continuous segment from a set of challenging distractors, MVP forces the model to attend to the sequential logic and temporal context of events. To support scalable training, we introduce a scalable data synthesis pipeline capable of transforming arbitrary video corpora into MVP training samples, and further employ Group Relative Policy Optimization (GRPO) with a fine-grained reward function to enhance the model's understanding of video context and temporal properties. Comprehensive evaluations demonstrate that MVP enhances video reasoning capabilities by directly reinforcing temporal reasoning and causal understanding.


翻译:基于强化学习的视频大语言模型后训练范式通过优化视觉语义任务(如视频描述或视频问答)已取得显著成功。然而,尽管这些方法有效提升了感知能力,它们主要针对整体内容理解,通常缺乏对内在时间连贯性与帧间相关性的显式监督。这种倾向限制了模型捕捉复杂动态与细粒度视觉因果关系的能力。为显式弥补这一差距,我们提出一种新颖的后训练目标:掩码视频预测。该方法要求模型从一组具有挑战性的干扰项中重构一个被掩码的连续片段,从而迫使模型关注事件的序列逻辑与时间上下文。为支持可扩展训练,我们引入一个可扩展的数据合成流程,能够将任意视频语料库转化为MVP训练样本,并进一步采用结合细粒度奖励函数的组相对策略优化,以增强模型对视频上下文与时间特性的理解。综合评估表明,MVP通过直接强化时间推理与因果理解,有效提升了视频推理能力。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员