【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理 - 专知VIP

会员服务 ·

0

检测器 · 多模态推理 · ICCV 2021 ·

2021 年 7 月 29 日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

目前，多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标，这使得模型很难适应自由文本中视觉concept的长尾分布，因此本文提出了MDETR，一种端到端调制检测器，能够根据原始文本query直接来检测图像中的目标，基于Transformer的结构，通过在模型的早期阶段融合这两种模态的信息，来对文本和图像进行共同的推理。最终，MDETR在检测和多个下游任务上都取得了SOTA的性能。

成为VIP会员查看完整内容

19

相关内容

检测器

ICCV2021 RealVSR: 业界首个移动端真实场景视频超分数据集

专知会员服务

24+阅读 · 2021年9月28日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

17+阅读 · 2021年8月26日

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

10+阅读 · 2021年8月12日

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

专知会员服务

28+阅读 · 2021年4月17日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

149+阅读 · 2020年7月26日

【ICML 2020 】小样本学习即领域迁移

【ICML 2020 】小样本学习即领域迁移

专知会员服务

78+阅读 · 2020年6月26日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

目标检测新技能！引入知识图谱:Reasoning-RCNN

目标检测新技能！引入知识图谱:Reasoning-RCNN

极市平台

12+阅读 · 2020年1月4日

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

CVer

5+阅读 · 2019年8月3日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

机器之心

4+阅读 · 2019年4月22日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年3月22日

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

机器之心

8+阅读 · 2019年1月11日

CMU最新视觉特征自监督学习模型——TextTopicNet

CMU最新视觉特征自监督学习模型——TextTopicNet

人工智能头条

9+阅读 · 2018年7月29日

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

机器之心

8+阅读 · 2018年4月19日

ClipMatrix: Text-controlled Creation of 3D Textured Meshes

Arxiv

0+阅读 · 2021年9月27日

Symmetry Protected Quantum Computation

Arxiv

0+阅读 · 2021年9月26日

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features

Arxiv

0+阅读 · 2021年9月25日

Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition

Arxiv

8+阅读 · 2020年12月4日

Transformation Driven Visual Reasoning

Arxiv

3+阅读 · 2020年11月26日

Revisiting Metric Learning for Few-Shot Image Classification

Arxiv

5+阅读 · 2020年4月16日

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Arxiv

6+阅读 · 2019年9月23日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

VIP会员

相关主题

多模态推理

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

10+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

6+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

11+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

10+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

7+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

13+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

15+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

9+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

12+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

12+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

13+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

15+阅读 · 7月14日

相关VIP内容

ICCV2021 RealVSR: 业界首个移动端真实场景视频超分数据集

专知会员服务

24+阅读 · 2021年9月28日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

17+阅读 · 2021年8月26日

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

10+阅读 · 2021年8月12日

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

专知会员服务

28+阅读 · 2021年4月17日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

149+阅读 · 2020年7月26日

【ICML 2020 】小样本学习即领域迁移

【ICML 2020 】小样本学习即领域迁移

专知会员服务

78+阅读 · 2020年6月26日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

目标检测新技能！引入知识图谱:Reasoning-RCNN

目标检测新技能！引入知识图谱:Reasoning-RCNN

极市平台

12+阅读 · 2020年1月4日

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

CVer

5+阅读 · 2019年8月3日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

机器之心

4+阅读 · 2019年4月22日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年3月22日

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

机器之心

8+阅读 · 2019年1月11日

CMU最新视觉特征自监督学习模型——TextTopicNet

CMU最新视觉特征自监督学习模型——TextTopicNet

人工智能头条

9+阅读 · 2018年7月29日

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

机器之心

8+阅读 · 2018年4月19日

相关论文

ClipMatrix: Text-controlled Creation of 3D Textured Meshes

Arxiv

0+阅读 · 2021年9月27日

Symmetry Protected Quantum Computation

Arxiv

0+阅读 · 2021年9月26日

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features

Arxiv

0+阅读 · 2021年9月25日

Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition

Arxiv

8+阅读 · 2020年12月4日

Transformation Driven Visual Reasoning

Arxiv

3+阅读 · 2020年11月26日

Revisiting Metric Learning for Few-Shot Image Classification

Arxiv

5+阅读 · 2020年4月16日

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Arxiv

6+阅读 · 2019年9月23日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

微信扫码咨询专知VIP会员