Weakly-Supervised Dense Video Captioning aims to localize and describe events in videos trained only on caption annotations, without temporal boundaries. Prior work introduced an implicit supervision paradigm based on Gaussian masking and complementary captioning. However, existing method focuses merely on generating non-overlapping masks without considering their semantic relationship to corresponding events, resulting in simplistic, uniformly distributed masks that fail to capture semantically meaningful regions. Moreover, relying solely on ground-truth captions leads to sub-optimal performance due to the inherent sparsity of existing datasets. In this work, we propose SAIL, which constructs semantically-aware masks through cross-modal alignment. Our similarity aware training objective guides masks to emphasize video regions with high similarity to their corresponding event captions. Furthermore, to guide more accurate mask generation under sparse annotation settings, we introduce an LLM-based augmentation strategy that generates synthetic captions to provide additional alignment signals. These synthetic captions are incorporated through an inter-mask mechanism, providing auxiliary guidance for precise temporal localization without degrading the main objective. Experiments on ActivityNet Captions and YouCook2 demonstrate state-of-the-art performance on both captioning and localization metrics.


翻译:弱监督密集视频描述旨在仅利用描述标注(不含时间边界)训练模型,实现对视频中事件的定位与描述。先前研究引入了基于高斯掩码与互补描述的隐式监督范式。然而,现有方法仅关注生成非重叠掩码,未考虑掩码与对应事件的语义关联,导致生成的掩码分布单一且均匀,难以捕捉语义关键区域。此外,由于现有数据集固有的稀疏性,仅依赖真实描述会导致性能欠佳。本研究提出SAIL方法,通过跨模态对齐构建语义感知掩码。我们提出的相似性感知训练目标引导掩码强调与对应事件描述高度相似的视频区域。进一步地,为在稀疏标注条件下引导更精确的掩码生成,我们引入基于大语言模型的增强策略,通过生成合成描述提供额外的对齐信号。这些合成描述通过掩码间交互机制进行融合,在不影响主目标的前提下为精确时间定位提供辅助引导。在ActivityNet Captions和YouCook2数据集上的实验表明,该方法在描述生成与事件定位指标上均达到最先进性能。

0
下载
关闭预览

相关内容

【MIT博士论文】弱监督学习:理论、方法与应用
专知会员服务
33+阅读 · 2025年12月21日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
专知会员服务
28+阅读 · 2021年8月24日
专知会员服务
42+阅读 · 2020年2月20日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
2+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
2+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
3+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
大语言模型同策略蒸馏研究综述
专知会员服务
10+阅读 · 4月5日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员