Long videos, ranging from minutes to hours, present significant challenges for current Multi-modal Large Language Models (MLLMs) due to their complex events, diverse scenes, and long-range dependencies. Direct encoding of such videos is computationally too expensive, while simple video-to-text conversion often results in redundant or fragmented content. To address these limitations, we introduce MMViR, a novel multi-modal, multi-grained structured representation for long video understanding. MMViR identifies key turning points to segment the video and constructs a three-level description that couples global narratives with fine-grained visual details. This design supports efficient query-based retrieval and generalizes well across various scenarios. Extensive evaluations across three tasks, including QA, summarization, and retrieval, show that MMViR outperforms the prior strongest method, achieving a 19.67% improvement in hour-long video understanding while reducing processing latency to 45.4% of the original.


翻译:长视频(时长从数分钟到数小时)因其复杂的事件、多样的场景和长程依赖关系,对当前的多模态大语言模型(MLLMs)构成了重大挑战。对此类视频进行直接编码的计算成本过高,而简单的视频到文本转换则往往导致内容冗余或碎片化。为应对这些局限性,我们提出了MMViR,一种用于长视频理解的新型多模态、多粒度结构化表征。MMViR通过识别关键转折点对视频进行分割,并构建了一个将全局叙事与细粒度视觉细节相结合的三级描述。该设计支持高效的基于查询的检索,并能很好地泛化到各种场景。在包括问答、摘要和检索在内的三项任务上进行广泛评估的结果表明,MMViR优于先前的最强方法,在一小时时长视频理解任务上实现了19.67%的性能提升,同时将处理延迟降低至原始方法的45.4%。

0
下载
关闭预览

相关内容

Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
【伯克利博士论文】多模态长视频理解,126页pdf
专知会员服务
50+阅读 · 2023年9月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
基于数据优化的人机协同与机器人僚机
专知会员服务
1+阅读 · 今天2:08
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
3+阅读 · 4月15日
《采用系统思维应对混合战争》125页
专知会员服务
6+阅读 · 4月15日
战争机器学习:数据生态系统构建(155页)
专知会员服务
9+阅读 · 4月15日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员