With the explosive growth of digital entertainment, automated video summarization has become indispensable for applications such as content indexing, personalized recommendation, and efficient media archiving. Automatic synopsis generation for long-form videos, such as movies and TV series, presents a significant challenge for existing Vision-Language Models (VLMs). While proficient at single-image captioning, these general-purpose models often exhibit critical failures in long-duration contexts, primarily a lack of ID-consistent character identification and a fractured narrative coherence. To overcome these limitations, we propose MovieTeller, a novel framework for generating movie synopses via tool-augmented progressive abstraction. Our core contribution is a training-free, tool-augmented, fact-grounded generation process. Instead of requiring costly model fine-tuning, our framework directly leverages off-the-shelf models in a plug-and-play manner. We first invoke a specialized face recognition model as an external "tool" to establish Factual Groundings--precise character identities and their corresponding bounding boxes. These groundings are then injected into the prompt to steer the VLM's reasoning, ensuring the generated scene descriptions are anchored to verifiable facts. Furthermore, our progressive abstraction pipeline decomposes the summarization of a full-length movie into a multi-stage process, effectively mitigating the context length limitations of current VLMs. Experiments demonstrate that our approach yields significant improvements in factual accuracy, character consistency, and overall narrative coherence compared to end-to-end baselines.


翻译:随着数字娱乐内容的爆炸式增长,自动化视频摘要技术对于内容索引、个性化推荐和高效媒体归档等应用场景已变得不可或缺。针对电影和电视剧等长视频的自动剧情摘要生成,对现有的视觉-语言模型构成了重大挑战。尽管这些通用模型在单图像描述任务上表现出色,但在长时程语境中常常出现关键性失效,主要表现为缺乏身份一致的角色识别能力和断裂的叙事连贯性。为克服这些局限,我们提出MovieTeller——一种通过工具增强的渐进式抽象生成电影摘要的新框架。我们的核心贡献在于无需训练、工具增强且事实锚定的生成流程。该框架无需昂贵的模型微调,而是以即插即用的方式直接利用现有成熟模型。我们首先调用专用人脸识别模型作为外部“工具”来建立事实锚点——精确的角色身份及其对应边界框。这些锚点随后被注入提示词中以引导VLM的推理过程,确保生成的场景描述锚定于可验证的事实。此外,我们的渐进式抽象流程将全长电影的摘要分解为多阶段处理,有效缓解了当前VLM的上下文长度限制。实验表明,相较于端到端基线方法,我们的方案在事实准确性、角色一致性和整体叙事连贯性方面均取得显著提升。

0
下载
关闭预览

相关内容

【CVPR2025】基于大语言模型的视频摘要生成
专知会员服务
12+阅读 · 2025年4月21日
【CVPR2024】使用大型语言模型扩展视频摘要预训练
专知会员服务
22+阅读 · 2024年4月6日
最新综述:速览Transformer长文本建模研究进展
专知会员服务
46+阅读 · 2023年3月15日
【简明书】视频摘要概述,55页pdf
专知会员服务
37+阅读 · 2022年10月24日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
10+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
14+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
13+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员