Weakly-Supervised Dense Video Captioning aims to localize and describe events in videos trained only on caption annotations, without temporal boundaries. Prior work introduced an implicit supervision paradigm based on Gaussian masking and complementary captioning. However, existing method focuses merely on generating non-overlapping masks without considering their semantic relationship to corresponding events, resulting in simplistic, uniformly distributed masks that fail to capture semantically meaningful regions. Moreover, relying solely on ground-truth captions leads to sub-optimal performance due to the inherent sparsity of existing datasets. In this work, we propose SAIL, which constructs semantically-aware masks through cross-modal alignment. Our similarity aware training objective guides masks to emphasize video regions with high similarity to their corresponding event captions. Furthermore, to guide more accurate mask generation under sparse annotation settings, we introduce an LLM-based augmentation strategy that generates synthetic captions to provide additional alignment signals. These synthetic captions are incorporated through an inter-mask mechanism, providing auxiliary guidance for precise temporal localization without degrading the main objective. Experiments on ActivityNet Captions and YouCook2 demonstrate state-of-the-art performance on both captioning and localization metrics.


翻译:弱监督密集视频描述旨在仅利用描述标注(不含时间边界)训练模型,实现对视频中事件的定位与描述。先前研究引入了基于高斯掩码与互补描述的隐式监督范式。然而,现有方法仅关注生成非重叠掩码,未考虑掩码与对应事件的语义关联,导致生成的掩码分布单一且均匀,难以捕捉语义关键区域。此外,由于现有数据集固有的稀疏性,仅依赖真实描述会导致性能欠佳。本研究提出SAIL方法,通过跨模态对齐构建语义感知掩码。我们提出的相似性感知训练目标引导掩码强调与对应事件描述高度相似的视频区域。进一步地,为在稀疏标注条件下引导更精确的掩码生成,我们引入基于大语言模型的增强策略,通过生成合成描述提供额外的对齐信号。这些合成描述通过掩码间交互机制进行融合,在不影响主目标的前提下为精确时间定位提供辅助引导。在ActivityNet Captions和YouCook2数据集上的实验表明,该方法在描述生成与事件定位指标上均达到最先进性能。

0
下载
关闭预览

相关内容

【MIT博士论文】弱监督学习:理论、方法与应用
专知会员服务
33+阅读 · 2025年12月21日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
专知会员服务
28+阅读 · 2021年8月24日
专知会员服务
42+阅读 · 2020年2月20日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA
专知会员服务
0+阅读 · 今天16:23
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
5+阅读 · 今天8:47
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
5+阅读 · 今天8:08
Nature三连发AI自主科学发现论文
专知会员服务
7+阅读 · 5月21日
安杜里尔与人工智能驱动防务的崛起
专知会员服务
14+阅读 · 5月21日
《Palantir平台:FOUNDRY与AIP服务定义文档》
专知会员服务
15+阅读 · 5月21日
2025年科学计算行业发展研究报告
专知会员服务
9+阅读 · 5月20日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员