Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persuasion strategies. However, despite excelling at general search, existing agents often struggle to bridge the cognitive gap between pixel-level perception and high-level marketing logic. To address this challenge, we introduce AD-MIR, a framework designed to decode advertising intent via a two-stage architecture. First, in the Structure-Aware Memory Construction phase, the system converts raw video into a structured database by integrating semantic retrieval with exact keyword matching. This approach prioritizes fine-grained brand details (e.g., logos, on-screen text) while dynamically filtering out irrelevant background noise to isolate key protagonists. Second, the Structured Reasoning Agent mimics a marketing expert through an iterative inquiry loop, decomposing the narrative to deduce implicit persuasion tactics. Crucially, it employs an evidence-based self-correction mechanism that rigorously validates these insights against specific video frames, automatically backtracking when visual support is lacking. Evaluation on the AdsQA benchmark demonstrates that AD-MIR achieves state-of-the-art performance, surpassing the strongest general-purpose agent, DVD, by 1.8% in strict and 9.5% in relaxed accuracy. These results underscore that effective advertising understanding demands explicitly grounding abstract marketing strategies in pixel-level evidence. The code is available at https://github.com/Little-Fridge/AD-MIR.


翻译:广告视频的多模态理解对于阐释视觉叙事与抽象说服策略之间的复杂关系至关重要。然而,尽管在通用搜索方面表现出色,现有智能体往往难以弥合像素级感知与高层营销逻辑之间的认知鸿沟。为应对这一挑战,我们提出了AD-MIR框架,该框架通过两阶段架构来解码广告意图。首先,在结构感知记忆构建阶段,系统通过整合语义检索与精确关键词匹配,将原始视频转换为结构化数据库。该方法优先处理细粒度的品牌细节(如标识、屏幕文本),同时动态过滤无关的背景噪声以分离关键主体。其次,结构化推理代理通过迭代式询问循环模拟营销专家,分解叙事以推断隐含的说服策略。关键在于,它采用基于证据的自我校正机制,严格对照特定视频帧验证这些洞察,并在缺乏视觉支持时自动回溯。在AdsQA基准上的评估表明,AD-MIR实现了最先进的性能,在严格准确率上超越最强的通用代理DVD 1.8%,在宽松准确率上超越9.5%。这些结果强调,有效的广告理解需要将抽象营销策略明确地锚定在像素级证据之上。代码发布于 https://github.com/Little-Fridge/AD-MIR。

0
下载
关闭预览

相关内容

Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
14+阅读 · 2025年10月7日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
视频文本预训练简述
专知会员服务
22+阅读 · 2022年7月24日
ADL108《知识图谱》开始报名了
中国计算机学会
14+阅读 · 2019年10月8日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员