Humans perceive actions through key transitions that structure actions across multiple abstraction levels, whereas machines, relying on visual features, tend to over-segment. This highlights the difficulty of enabling hierarchical reasoning in video understanding. Interestingly, we observe that lower-level visual and high-level action latent variables evolve at different rates, with low-level visual variables changing rapidly, while high-level action variables evolve more slowly, making them easier to identify. Building on this insight, we propose the Hierarchical Action Learning (\textbf{HAL}) model for weakly-supervised action segmentation. Our approach introduces a hierarchical causal data generation process, where high-level latent action governs the dynamics of low-level visual features. To model these varying timescales effectively, we introduce deterministic processes to align these latent variables over time. The \textbf{HAL} model employs a hierarchical pyramid transformer to capture both visual features and latent variables, and a sparse transition constraint is applied to enforce the slower dynamics of high-level action variables. This mechanism enhances the identification of these latent variables over time. Under mild assumptions, we prove that these latent action variables are strictly identifiable. Experimental results on several benchmarks show that the \textbf{HAL} model significantly outperforms existing methods for weakly-supervised action segmentation, confirming its practical effectiveness in real-world applications.


翻译:人类通过关键转换来感知动作,这些转换在多个抽象层次上构建动作结构,而依赖视觉特征的机器则倾向于过度分割。这凸显了在视频理解中实现分层推理的困难。有趣的是,我们观察到低层视觉和高层动作潜变量以不同的速率演化:低层视觉变量变化迅速,而高层动作变量演化较慢,使其更易于识别。基于这一洞察,我们提出了用于弱监督动作分割的分层动作学习(\textbf{HAL})模型。我们的方法引入了一个分层因果数据生成过程,其中高层潜动作支配着低层视觉特征的动态变化。为了有效建模这些不同的时间尺度,我们引入了确定性过程来对齐这些潜变量随时间的变化。\textbf{HAL}模型采用分层金字塔Transformer来捕获视觉特征和潜变量,并应用稀疏转换约束以强制高层动作变量具有较慢的动态特性。这一机制增强了这些潜变量随时间推移的识别能力。在温和的假设下,我们证明了这些潜动作变量是严格可识别的。在多个基准测试上的实验结果表明,\textbf{HAL}模型在弱监督动作分割方面显著优于现有方法,证实了其在实际应用中的有效性。

0
下载
关闭预览

相关内容

视觉弱监督学习研究进展
专知会员服务
32+阅读 · 2022年6月28日
专知会员服务
42+阅读 · 2020年2月20日
一文看懂如何将深度学习应用于视频动作识别
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
2+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
4+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
视觉弱监督学习研究进展
专知会员服务
32+阅读 · 2022年6月28日
专知会员服务
42+阅读 · 2020年2月20日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员