Zero-shot Human-object interaction (HOI) detection aims to locate humans and objects in images and recognize their interactions. While advances in open-vocabulary object detection provide promising solutions for object localization, interaction recognition (IR) remains challenging due to the combinatorial diversity of interactions. Existing methods, including two-stage methods, tightly couple IR with a specific detector and rely on coarse-grained vision-language model (VLM) features, which limit generalization to unseen interactions. In this work, we propose a decoupled framework that separates object detection from IR and leverages multi-modal large language models (MLLMs) for zero-shot IR. We introduce a deterministic generation method that formulates IR as a visual question answering task and enforces deterministic outputs, enabling training-free zero-shot IR. To further enhance performance and efficiency by fine-tuning the model, we design a spatial-aware pooling module that integrates appearance and pairwise spatial cues, and a one-pass deterministic matching method that predicts all candidate interactions in a single forward pass. Extensive experiments on HICO-DET and V-COCO demonstrate that our method achieves superior zero-shot performance, strong cross-dataset generalization, and the flexibility to integrate with any object detectors without retraining. The codes are publicly available at https://github.com/SY-Xuan/DA-HOI.


翻译:零样本人-物交互检测旨在定位图像中的人与物体并识别其交互关系。尽管开放词汇目标检测的进展为目标定位提供了有前景的解决方案,但由于交互关系的组合多样性,交互识别仍然面临挑战。现有方法(包括两阶段方法)将交互识别与特定检测器紧密耦合,并依赖于粗粒度的视觉-语言模型特征,这限制了对未见交互关系的泛化能力。本研究提出一种解耦框架,将目标检测与交互识别分离,并利用多模态大语言模型进行零样本交互识别。我们引入一种确定性生成方法,将交互识别构建为视觉问答任务并强制确定性输出,从而实现无需训练的零样本交互识别。为进一步通过微调提升性能与效率,我们设计了集成外观特征与成对空间线索的空间感知池化模块,以及单次前向传播即可预测所有候选交互关系的单次确定性匹配方法。在HICO-DET和V-COCO数据集上的大量实验表明,我们的方法实现了卓越的零样本性能、强大的跨数据集泛化能力,并能灵活集成任意目标检测器而无需重新训练。代码已公开于https://github.com/SY-Xuan/DA-HOI。

0
下载
关闭预览

相关内容

【CVPR2022】基于鲁棒区域特征生成的零样本目标检测
专知会员服务
11+阅读 · 2022年3月22日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
浙大《深度学习低样本目标检测》综述论文
专知会员服务
76+阅读 · 2021年12月13日
专知会员服务
52+阅读 · 2021年5月15日
专知会员服务
164+阅读 · 2020年4月21日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员