Open-Vocabulary Temporal Action Detection (OV-TAD) aims to classify and localize action segments in untrimmed videos for unseen categories. Previous methods rely solely on global alignment between label-level semantics and visual features, which is insufficient to transfer temporal consistent visual knowledge from seen to unseen classes. To address this, we propose a Phase-wise Decomposition and Alignment (PDA) framework, which enables fine-grained action pattern learning for effective prior knowledge transfer. Specifically, we first introduce the CoT-Prompting Semantic Decomposition (CSD) module, which leverages the chain-of-thought (CoT) reasoning ability of large language models to automatically decompose action labels into coherent phase-level descriptions, emulating human cognitive processes. Then, Text-infused Foreground Filtering (TIF) module is introduced to adaptively filter action-relevant segments for each phase leveraging phase-wise semantic cues, producing semantically aligned visual representations. Furthermore, we propose the Adaptive Phase-wise Alignment (APA) module to perform phase-level visual-textual matching, and adaptively aggregates alignment results across phases for final prediction. This adaptive phase-wise alignment facilitates the capture of transferable action patterns and significantly enhances generalization to unseen actions. Extensive experiments on two OV-TAD benchmarks demonstrated the superiority of the proposed method.


翻译:开放词汇时间动作检测(OV-TAD)旨在对未修剪视频中未见类别的动作片段进行分类和定位。现有方法仅依赖标签级语义与视觉特征之间的全局对齐,这不足以将时间一致的视觉知识从已见类别迁移到未见类别。为解决这一问题,我们提出了一种分阶段分解与对齐(PDA)框架,该框架能够实现细粒度动作模式学习,从而有效迁移先验知识。具体而言,我们首先引入了CoT提示语义分解(CSD)模块,该模块利用大语言模型的链式思维(CoT)推理能力,自动将动作标签分解为连贯的阶段级描述,模拟人类认知过程。随后,引入文本融合前景过滤(TIF)模块,利用阶段级语义线索自适应过滤每个阶段的动作相关片段,生成语义对齐的视觉表示。此外,我们提出自适应阶段级对齐(APA)模块,执行阶段级视觉-文本匹配,并跨阶段自适应聚合对齐结果以进行最终预测。这种自适应阶段级对齐有助于捕获可迁移的动作模式,显著增强对未见动作的泛化能力。在两个OV-TAD基准上的大量实验证明了所提方法的优越性。

0
下载
关闭预览

相关内容

【ACMMM2025】通过因果推理提升时间句子定位性能
专知会员服务
12+阅读 · 2025年7月9日
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
CVPR 2020 论文大盘点-动作检测与动作分割篇
计算机视觉life
12+阅读 · 2020年7月27日
用Attention玩转CV,一文总览自注意力语义分割进展
BiSeNet:双向分割网络进行实时语义分割
统计学习与视觉计算组
22+阅读 · 2018年8月23日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员