Video temporal grounding (VTG) takes an untrimmed video and a natural-language query as input and localizes the temporal moment that best matches the query. Existing methods rely on large, task-specific datasets requiring costly manual annotation. We introduce EvoGround, a framework of two coupled self-evolving agents, a proposer and a solver, that learn temporal grounding from raw videos without any human-labeled data. The proposer generates query--moment pairs from raw videos, while the solver learns to ground them and feeds back signals that improve the proposer in return. Through this self-reinforcing reinforcement-learning loop, the two agents are initialized from the same backbone and mutually improve across iterations. Trained on 2.5K unlabeled videos, EvoGround matches or surpasses fully supervised models across multiple VTG benchmarks, while emerging as a state-of-the-art fine-grained video captioner without manual labels.


翻译:视频时间定位(VTG)任务以未剪辑视频和自然语言查询作为输入,旨在定位与查询最匹配的时间段。现有方法依赖需要昂贵人工标注的大规模任务专用数据集。我们提出EvoGround框架,包含两个耦合的自演进智能体(提案生成器与求解器),无需任何人工标注数据即可从原始视频中学习时间定位。提案生成器从原始视频生成查询-时间段对,求解器则学习定位这些时间段并反馈信号优化提案生成器。通过这种自我强化的强化学习循环,两个智能体从同一基础网络初始化,在迭代中相互提升。基于2,500个未标注视频的训练,EvoGround在多个VTG基准测试中达到或超越全监督模型,同时无需人工标注即成为最先进的细粒度视频描述生成器。

0
下载
关闭预览

相关内容

【ACMMM2025】通过因果推理提升时间句子定位性能
专知会员服务
12+阅读 · 2025年7月9日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
【ICML2022】时序自监督视频transformer
专知会员服务
31+阅读 · 2022年7月28日
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
25+阅读 · 2022年1月29日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员