目前,多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标,这使得模型很难适应自由文本中视觉concept的长尾分布,因此本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态的信息,来对文本和图像进行共同的推理。最终,MDETR在检测和多个下游任务上都取得了SOTA的性能。

成为VIP会员查看完整内容
19

相关内容

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理
【ICML 2020 】小样本学习即领域迁移
专知会员服务
78+阅读 · 2020年6月26日
专知会员服务
113+阅读 · 2020年3月20日
目标检测新技能!引入知识图谱:Reasoning-RCNN
极市平台
12+阅读 · 2020年1月4日
CMU最新视觉特征自监督学习模型——TextTopicNet
人工智能头条
9+阅读 · 2018年7月29日
Arxiv
0+阅读 · 2021年9月26日
Arxiv
3+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
微信扫码咨询专知VIP会员