Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition - 专知论文

会员服务 ·

0

样本 · 识别 · 动作识别 · 共现 · 正则化 ·

Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition

翻译：为什么我打不开抽屉？缓解零样本组合动作识别中的物体驱动捷径

Geo Ahn,Inwoong Lee,Taeoh Kim,Minho Shim,Dongyoon Wee,Jinwoo Choi

from arxiv, The code is available at https://github.com/KHU-VLL/RCORE

Zero-Shot Compositional Action Recognition (ZS-CAR) requires recognizing novel verb-object combinations composed of previously observed primitives. In this work, we tackle a key failure mode: models predict verbs via object-driven shortcuts (i.e., relying on the labeled object class) rather than temporal evidence. We argue that sparse compositional supervision and verb-object learning asymmetry can promote object-driven shortcut learning. Our analysis with proposed diagnostic metrics shows that existing methods overfit to training co-occurrence patterns and underuse temporal verb cues, resulting in weak generalization to unseen compositions. To address object-driven shortcuts, we propose Robust COmpositional REpresentations (RCORE) with two components. Co-occurrence Prior Regularization (CPR) adds explicit supervision for unseen compositions and regularizes the model against frequent co-occurrence priors by treating them as hard negatives. Temporal Order Regularization for Composition (TORC) enforces temporal-order sensitivity to learn temporally grounded verb representations. Across Sth-com and EK100-com, RCORE reduces shortcut diagnostics and consequently improves compositional generalization.

翻译：零样本组合动作识别（ZS-CAR）要求识别由先前观察到的基本单元组成的新颖动词-宾语组合。本文针对一个关键失败模式展开研究：模型通过物体驱动的捷径（即依赖标注的物体类别）而非时间线索来预测动词。我们认为稀疏的组合监督以及动词-物体学习不对称性可能促进物体驱动的捷径学习。基于提出的诊断性度量指标的分析表明，现有方法过度拟合训练共现模式且未充分利用动词的时间线索，导致对未见组合的泛化能力薄弱。为解决物体驱动捷径问题，我们提出鲁棒组合表示（RCORE），包含两个组成部分。共现先验正则化（CPR）为未见组合添加显式监督，并通过将频繁共现先验视为困难负样本对模型进行正则化；组合时序顺序正则化（TORC）强制模型关注时序顺序敏感性，以学习基于时间线索的动词表征。在Sth-com和EK100-com数据集上，RCORE减少了捷径诊断指标，从而提升了组合泛化性能。

0

相关内容

组合式零样本学习综述

组合式零样本学习综述

专知会员服务

17+阅读 · 2025年11月7日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

专知会员服务

21+阅读 · 2022年3月8日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

37+阅读 · 2021年2月26日

常识知识图谱的零样本学习，布朗大学

专知会员服务

40+阅读 · 2020年6月19日

【ICCV 2019 Workshop】Adaptive Confidence Smoothing for Generalized Zero-Shot Learning，巴伊兰大学 Yuval Atzmon

【ICCV 2019 Workshop】Adaptive Confidence Smoothing for Generalized Zero-Shot Learning，巴伊兰大学 Yuval Atzmon

专知会员服务

13+阅读 · 2019年10月31日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

【附源码】TensorFlow动态图（Eager模式）的那些神坑

【附源码】TensorFlow动态图（Eager模式）的那些神坑

专知

19+阅读 · 2018年10月12日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

无同步器电驱动机械变速器的“无冲击换档”控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态缩比模型的操纵面效能测试方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

Dreaming Across Towns: Semantic Rollout and Town-Adversarial Regularization for Zero-Shot Held-Out-Town Fixed-Route Driving in CARLA

Arxiv

0+阅读 · 4月30日

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

Arxiv

0+阅读 · 4月24日

SkillDroid: Compile Once, Reuse Forever

Arxiv

0+阅读 · 4月16日

Jellyfish: Zero-Shot Federated Unlearning Scheme with Knowledge Disentanglement

Arxiv

0+阅读 · 4月5日

MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation

Arxiv

0+阅读 · 3月31日

Rectify, Don't Regret: Avoiding Pitfalls of Differentiable Simulation in Trajectory Prediction

Arxiv

0+阅读 · 3月24日

From Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism

Arxiv

0+阅读 · 3月20日

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Arxiv

0+阅读 · 3月19日

REST: Receding Horizon Explorative Steiner Tree for Zero-Shot Object-Goal Navigation

Arxiv

0+阅读 · 3月19日

The Truncation Blind Spot: How Decoding Strategies Systematically Exclude Human-Like Token Choices

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

组合式零样本学习综述

组合式零样本学习综述

专知会员服务

17+阅读 · 2025年11月7日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

专知会员服务

21+阅读 · 2022年3月8日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

37+阅读 · 2021年2月26日

常识知识图谱的零样本学习，布朗大学

专知会员服务

40+阅读 · 2020年6月19日

【ICCV 2019 Workshop】Adaptive Confidence Smoothing for Generalized Zero-Shot Learning，巴伊兰大学 Yuval Atzmon

【ICCV 2019 Workshop】Adaptive Confidence Smoothing for Generalized Zero-Shot Learning，巴伊兰大学 Yuval Atzmon

专知会员服务

13+阅读 · 2019年10月31日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

【附源码】TensorFlow动态图（Eager模式）的那些神坑

【附源码】TensorFlow动态图（Eager模式）的那些神坑

专知

19+阅读 · 2018年10月12日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Dreaming Across Towns: Semantic Rollout and Town-Adversarial Regularization for Zero-Shot Held-Out-Town Fixed-Route Driving in CARLA

Arxiv

0+阅读 · 4月30日

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

Arxiv

0+阅读 · 4月24日

SkillDroid: Compile Once, Reuse Forever

Arxiv

0+阅读 · 4月16日

Jellyfish: Zero-Shot Federated Unlearning Scheme with Knowledge Disentanglement

Arxiv

0+阅读 · 4月5日

MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation

Arxiv

0+阅读 · 3月31日

Rectify, Don't Regret: Avoiding Pitfalls of Differentiable Simulation in Trajectory Prediction

Arxiv

0+阅读 · 3月24日

From Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism

Arxiv

0+阅读 · 3月20日

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Arxiv

0+阅读 · 3月19日

REST: Receding Horizon Explorative Steiner Tree for Zero-Shot Object-Goal Navigation

Arxiv

0+阅读 · 3月19日

The Truncation Blind Spot: How Decoding Strategies Systematically Exclude Human-Like Token Choices

Arxiv

0+阅读 · 3月19日

相关基金

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

无同步器电驱动机械变速器的“无冲击换档”控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态缩比模型的操纵面效能测试方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员