Recent Video Large Language Models (Video-LLMs) have shown strong multimodal reasoning capabilities, yet remain challenged by video understanding tasks that require consistent temporal ordering and causal coherence. Many parameter-efficient Video-LLMs rely on unconstrained bidirectional projectors to model inter-frame interactions, which can blur temporal ordering by allowing later frames to influence earlier representations, without explicit architectural mechanisms to respect the directional nature of video reasoning. To address this limitation, we propose V-CORE, a parameter-efficient framework that introduces explicit temporal ordering constraints for video understanding. V-CORE consists of two key components: (1) Learnable Spatial Aggregation (LSA), which adaptively selects salient spatial tokens to reduce redundancy, and (2) a Causality-Aware Temporal Projector (CATP), which enforces structured unidirectional information flow via block-causal attention and a terminal dynamic summary token acting as a causal sink. This design preserves intra-frame spatial interactions while ensuring that temporal information is aggregated in a strictly ordered manner. With 4-bit QLoRA and a frozen LLM backbone, V-CORE can be trained efficiently on a single consumer GPU. Experiments show that V-CORE achieves strong performance on the challenging NExT-QA benchmark, reaching 61.2% accuracy, and remains competitive across MSVD-QA, MSRVTT-QA, and TGIF-QA, with gains concentrated in temporal and causal reasoning subcategories (+3.5% and +5.2% respectively), directly validating the importance of explicit temporal ordering constraints.


翻译:近期,视频大语言模型(Video-LLMs)已展现出强大的多模态推理能力,但在需要保持时序一致性与因果连贯性的视频理解任务中仍面临挑战。许多参数高效的Video-LLMs依赖无约束的双向投影器来建模帧间交互,这种设计允许后续帧影响先前的表征,却缺乏显式的架构机制来遵循视频推理的时序方向性,从而可能模糊时序顺序。为应对这一局限,我们提出了V-CORE,一个参数高效的视频理解框架,其引入了显式的时序顺序约束。V-CORE包含两个核心组件:(1)可学习的空间聚合模块(LSA),能够自适应地选择显著的空间标记以减少冗余;(2)因果感知时序投影器(CATP),通过块因果注意力机制与作为因果汇聚终端的动态摘要标记,强制实现结构化的单向信息流。该设计在保留帧内空间交互的同时,确保时序信息以严格有序的方式聚合。结合4位QLoRA量化技术与冻结的大语言模型主干,V-CORE可在单张消费级GPU上高效训练。实验表明,V-CORE在具有挑战性的NExT-QA基准测试中取得了61.2%的准确率,表现出色;在MSVD-QA、MSRVTT-QA和TGIF-QA数据集上亦保持竞争力,其性能提升主要集中在时序推理与因果推理子类别(分别提升3.5%与5.2%),直接验证了显式时序顺序约束的重要性。

0
下载
关闭预览

相关内容

VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员