We propose MLLM-VADStory, a novel domain knowledge-guided multimodal large language models (MLLM) framework to systematically quantify and generate insights for video ad storyline understanding at scale. The framework is centered on the core idea that ad narratives are structured by functional intent, with each scene unit performing a distinct communicative function, delivering product and brand-oriented information within seconds. MLLM-VADStory segments ads into functional units, classifies each unit's functionality using a novel advertising-specific functional role taxonomy, and then aggregates functional sequences across ads to recover data-driven storyline structures. Applying the framework to 50k social media video ads across four industry subverticals, we find that story-based creatives improve video retention, and we recommend top-performing story arcs to guide advertisers in creative design. Our framework demonstrates the value of using domain knowledge to guide MLLMs in generating scalable insights for video ad storylines, making it a versatile tool for understanding video creatives in general.


翻译:我们提出了MLLM-VADStory,一种新颖的领域知识引导的多模态大语言模型框架,用于系统性地量化并大规模生成视频广告叙事理解的洞察。该框架的核心思想是:广告叙事由功能意图构建,每个场景单元执行特定的传播功能,在数秒内传递以产品和品牌为导向的信息。MLLM-VADStory将广告分割为功能单元,使用一种新颖的广告专用功能角色分类法对每个单元的功能进行分类,然后跨广告聚合功能序列,以恢复数据驱动的叙事结构。将该框架应用于四个行业细分领域的五万个社交媒体视频广告后,我们发现基于故事的创意能提高视频留存率,并推荐表现最优的叙事弧以指导广告主进行创意设计。我们的框架证明了利用领域知识引导多模态大语言模型生成可扩展的视频广告叙事洞察的价值,使其成为理解视频创意的一个通用工具。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
【AIDL专栏】梅涛:深度视觉理解(附PPT)
人工智能前沿讲习班
24+阅读 · 2018年5月25日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
32+阅读 · 2018年5月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
相关资讯
【AIDL专栏】梅涛:深度视觉理解(附PPT)
人工智能前沿讲习班
24+阅读 · 2018年5月25日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
32+阅读 · 2018年5月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员