Zero-Shot Compositional Action Recognition (ZS-CAR) requires recognizing novel verb-object combinations composed of previously observed primitives. In this work, we tackle a key failure mode: models predict verbs via object-driven shortcuts (i.e., relying on the labeled object class) rather than temporal evidence. We argue that sparse compositional supervision and verb-object learning asymmetry can promote object-driven shortcut learning. Our analysis with proposed diagnostic metrics shows that existing methods overfit to training co-occurrence patterns and underuse temporal verb cues, resulting in weak generalization to unseen compositions. To address object-driven shortcuts, we propose Robust COmpositional REpresentations (RCORE) with two components. Co-occurrence Prior Regularization (CPR) adds explicit supervision for unseen compositions and regularizes the model against frequent co-occurrence priors by treating them as hard negatives. Temporal Order Regularization for Composition (TORC) enforces temporal-order sensitivity to learn temporally grounded verb representations. Across Sth-com and EK100-com, RCORE reduces shortcut diagnostics and consequently improves compositional generalization.


翻译:零样本组合动作识别(ZS-CAR)要求识别由先前观察到的基本单元组成的新颖动词-宾语组合。本文针对一个关键失败模式展开研究:模型通过物体驱动的捷径(即依赖标注的物体类别)而非时间线索来预测动词。我们认为稀疏的组合监督以及动词-物体学习不对称性可能促进物体驱动的捷径学习。基于提出的诊断性度量指标的分析表明,现有方法过度拟合训练共现模式且未充分利用动词的时间线索,导致对未见组合的泛化能力薄弱。为解决物体驱动捷径问题,我们提出鲁棒组合表示(RCORE),包含两个组成部分。共现先验正则化(CPR)为未见组合添加显式监督,并通过将频繁共现先验视为困难负样本对模型进行正则化;组合时序顺序正则化(TORC)强制模型关注时序顺序敏感性,以学习基于时间线索的动词表征。在Sth-com和EK100-com数据集上,RCORE减少了捷径诊断指标,从而提升了组合泛化性能。

0
下载
关闭预览

相关内容

组合式零样本学习综述
专知会员服务
17+阅读 · 2025年11月7日
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【WWW2021】本体增强零样本学习
专知会员服务
37+阅读 · 2021年2月26日
专知会员服务
40+阅读 · 2020年6月19日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月20日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 5分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
组合式零样本学习综述
专知会员服务
17+阅读 · 2025年11月7日
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【WWW2021】本体增强零样本学习
专知会员服务
37+阅读 · 2021年2月26日
专知会员服务
40+阅读 · 2020年6月19日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员