Automatically extracting engaging and high-quality humorous scenes from cinematic titles is pivotal for creating captivating video previews and snackable content, boosting user engagement on streaming platforms. Long-form cinematic titles, with their extended duration and complex narratives, challenge scene localization, while humor's reliance on diverse modalities and its nuanced style add further complexity. This paper introduces an end-to-end system for automatically identifying and ranking humorous scenes from long-form cinematic titles, featuring shot detection, multimodal scene localization, and humor tagging optimized for cinematic content. Key innovations include a novel scene segmentation approach combining visual and textual cues, improved shot representations via guided triplet mining, and a multimodal humor tagging framework leveraging both audio and text. Our system achieves an 18.3% AP improvement over state-of-the-art scene detection on the OVSD dataset and an F1 score of 0.834 for detecting humor in long text. Extensive evaluations across five cinematic titles demonstrate 87% of clips extracted by our pipeline are intended to be funny, while 98% of scenes are accurately localized. With successful generalization to trailers, these results showcase the pipeline's potential to enhance content creation workflows, improve user engagement, and streamline snackable content generation for diverse cinematic media formats.


翻译:自动从电影作品中提取引人入胜且高质量的幽默场景,对于制作吸引人的视频预告片和碎片化内容、提升流媒体平台用户参与度至关重要。长篇幅电影作品因其较长的时长和复杂的叙事结构,给场景定位带来挑战;而幽默依赖于多种模态且风格微妙,进一步增加了复杂性。本文提出了一种端到端系统,用于自动识别并排序长篇幅电影作品中的幽默场景,该系统包含镜头检测、多模态场景定位以及针对电影内容优化的幽默标注模块。关键创新包括:一种结合视觉与文本线索的新型场景分割方法、通过引导三元组挖掘改进的镜头表征技术,以及一种利用音频和文本的多模态幽默标注框架。我们的系统在OVSD数据集上相比最先进的场景检测方法实现了18.3%的平均精度提升,在长文本幽默检测中取得了0.834的F1分数。在五部电影作品上的广泛评估表明,我们流程提取的片段中有87%被设计为幽默内容,同时98%的场景被准确定位。该系统已成功推广至预告片场景,这些结果展示了该流程在增强内容创作工作流、提升用户参与度以及为多样化电影媒体格式简化碎片化内容生成方面的潜力。

0
下载
关闭预览

相关内容

电影是一种视听媒介,利用胶卷、录像带或数位媒体将影像和声音捕捉,再加上后期的编辑工作而成。
【CVPR2024】使用大型语言模型扩展视频摘要预训练
专知会员服务
22+阅读 · 2024年4月6日
【简明书】视频摘要概述,55页pdf
专知会员服务
36+阅读 · 2022年10月24日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
一文带你读懂自然语言处理 - 事件提取
AI研习社
10+阅读 · 2019年5月10日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
白翔:趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十
深度学习大讲堂
19+阅读 · 2017年9月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
一文带你读懂自然语言处理 - 事件提取
AI研习社
10+阅读 · 2019年5月10日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
白翔:趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十
深度学习大讲堂
19+阅读 · 2017年9月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员