开放文本航空检测：航空视觉定位与检测的统一框架 (Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection) - 专知论文

会员服务 ·

0

粒度 · 语义理解 · 视觉定位 · 监督 · 粗粒度 ·

Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection

翻译：开放文本航空检测：航空视觉定位与检测的统一框架

Guoting Wei,Xia Yuan,Yang Zhou,Haizhao Jing,Yu Liu,Xianbiao Qi,Chunxia Zhao,Haokui Zhang,Rong Xiao

Open-Vocabulary Aerial Detection (OVAD) and Remote Sensing Visual Grounding (RSVG) have emerged as two key paradigms for aerial scene understanding. However, each paradigm suffers from inherent limitations when operating in isolation: OVAD is restricted to coarse category-level semantics, while RSVG is structurally limited to single-target localization. These limitations prevent existing methods from simultaneously supporting rich semantic understanding and multi-target detection. To address this, we propose OTA-Det, the first unified framework that bridges both paradigms into a cohesive architecture. Specifically, we introduce a task reformulation strategy that unifies task objectives and supervision mechanisms, enabling joint training across datasets from both paradigms with dense supervision signals. Furthermore, we propose a dense semantic alignment strategy that establishes explicit correspondence at multiple granularities, from holistic expressions to individual attributes, enabling fine-grained semantic understanding. To ensure real-time efficiency, OTA-Det builds upon the RT-DETR architecture, extending it from closed-set detection to open-text detection by introducing several high efficient modules, achieving state-of-the-art performance on six benchmarks spanning both OVAD and RSVG tasks while maintaining real-time inference at 34 FPS.

翻译：开放词汇航空检测（OVAD）与遥感视觉定位（RSVG）已成为航空场景理解的两个关键范式。然而，每种范式在独立运作时都存在固有的局限性：OVAD仅限于粗粒度的类别级语义理解，而RSVG在结构上局限于单目标定位。这些限制使得现有方法无法同时支持丰富的语义理解和多目标检测。为解决这一问题，我们提出了OTA-Det，这是首个将两种范式桥接至统一架构的框架。具体而言，我们引入了一种任务重构策略，统一了任务目标和监督机制，使得能够利用来自两种范式的数据集进行联合训练，并获得密集的监督信号。此外，我们提出了一种密集语义对齐策略，在从整体描述到个体属性的多个粒度上建立显式对应关系，从而实现细粒度的语义理解。为确保实时效率，OTA-Det基于RT-DETR架构构建，通过引入多个高效模块，将其从闭集检测扩展至开放文本检测，在涵盖OVAD和RSVG任务的六个基准测试中取得了最先进的性能，同时保持34 FPS的实时推理速度。

0

相关内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

11+阅读 · 2月20日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

14+阅读 · 2024年5月18日

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

专知会员服务

55+阅读 · 2023年9月15日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

《基于深度学习的航空图像车辆检测》276页书籍

《基于深度学习的航空图像车辆检测》276页书籍

专知会员服务

76+阅读 · 2023年6月12日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

北理工最新《基于深度学习的无人机UAV目标检测与跟踪》研究综述论文，24页pdf227篇文献概述深度无人机目标检测进展

北理工最新《基于深度学习的无人机UAV目标检测与跟踪》研究综述论文，24页pdf227篇文献概述深度无人机目标检测进展

专知会员服务

163+阅读 · 2021年10月28日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

目标检测101：一文带你读懂深度学习框架下的目标检测

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于聚焦光束扫描的高空间分辨面型检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

Arxiv

0+阅读 · 2月19日

AdaptOVCD: Training-Free Open-Vocabulary Remote Sensing Change Detection via Adaptive Information Fusion

Arxiv

0+阅读 · 2月6日

Annotation Free Spacecraft Detection and Segmentation using Vision Language Models

Arxiv

0+阅读 · 2月4日

Beyond Global Scanning: Adaptive Visual State Space Modeling for Salient Object Detection in Optical Remote Sensing Images

Arxiv

0+阅读 · 2月4日

Enhanced Detection of Tiny Objects in Aerial Images

Arxiv

0+阅读 · 2月2日

Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images

Arxiv

0+阅读 · 2月2日

RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning

Arxiv

0+阅读 · 1月29日

Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation

Arxiv

0+阅读 · 1月24日

A Training-Free Guess What Vision Language Model from Snippets to Open-Vocabulary Object Detection

Arxiv

0+阅读 · 1月21日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

相关VIP内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

11+阅读 · 2月20日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

14+阅读 · 2024年5月18日

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

专知会员服务

55+阅读 · 2023年9月15日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

《基于深度学习的航空图像车辆检测》276页书籍

《基于深度学习的航空图像车辆检测》276页书籍

专知会员服务

76+阅读 · 2023年6月12日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

北理工最新《基于深度学习的无人机UAV目标检测与跟踪》研究综述论文，24页pdf227篇文献概述深度无人机目标检测进展

北理工最新《基于深度学习的无人机UAV目标检测与跟踪》研究综述论文，24页pdf227篇文献概述深度无人机目标检测进展

专知会员服务

163+阅读 · 2021年10月28日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

目标检测101：一文带你读懂深度学习框架下的目标检测

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

相关论文

OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

Arxiv

0+阅读 · 2月19日

AdaptOVCD: Training-Free Open-Vocabulary Remote Sensing Change Detection via Adaptive Information Fusion

Arxiv

0+阅读 · 2月6日

Annotation Free Spacecraft Detection and Segmentation using Vision Language Models

Arxiv

0+阅读 · 2月4日

Beyond Global Scanning: Adaptive Visual State Space Modeling for Salient Object Detection in Optical Remote Sensing Images

Arxiv

0+阅读 · 2月4日

Enhanced Detection of Tiny Objects in Aerial Images

Arxiv

0+阅读 · 2月2日

Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images

Arxiv

0+阅读 · 2月2日

RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning

Arxiv

0+阅读 · 1月29日

Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation

Arxiv

0+阅读 · 1月24日

A Training-Free Guess What Vision Language Model from Snippets to Open-Vocabulary Object Detection

Arxiv

0+阅读 · 1月21日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于聚焦光束扫描的高空间分辨面型检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员