Object detection in autonomous driving requires precise localization and an inherent understanding of the relational context between co-occurring objects. In extremely complex heterogeneous environments rare classes, small-scale objects, and frequently appearing objects are difficult for standard object detection frameworks to handle. In this paper, we propose a novel framework called Context-Centric Feature Fusion (CCFF), which utilizes two attention-based modules, Local Context Fusion Module (LCFM) uses the RoI-to-RoI self-attention mechanism to resolve spatial interactions, mainly considering small and partially obscured objects, while Global Context Attention Module (GCAM) converts the co-occurrence of objects priors by pooling top-K RoI features into a global context attention token, avoiding the computational overhead of pixel-level global pooling. This fusion of local and object-centric global features yields contextualized embeddings that enhance classification results and co-occurring objects detection. Our method is evaluated on two datasets, Cityscapes and BDD100K which demonstrate significant improvement on relational consistency, achieving a Category-level Consistency Strategy (CCS) of 0.973 and 0.969, respectively. Furthermore, our approach produces substantial gains in small object detection (AP_S: 14.1%) and successfully recovers rare classes such as "Train" that are typically lost in large distributions. Our efficiency report shows that the framework processes images in real time with a 0.2 FPS overhead. The code is available at https://github.com/BinayKSingh/CCFF.


翻译:自动驾驶中的目标检测需要精确定位和对共现目标之间关系上下文的固有理解。在极其复杂的异质环境中,稀有类别、小尺度目标和频繁出现的目标对于标准目标检测框架而言难以处理。在本文中,我们提出了一种名为上下文中心特征融合(CCFF)的新框架,该框架利用两个基于注意力的模块:局部上下文融合模块(LCFM)使用RoI到RoI的自注意力机制来解决空间交互问题,主要考虑小目标和部分被遮挡的目标;而全局上下文注意力模块(GCAM)则通过将Top-K RoI特征池化为全局上下文注意力令牌来转换目标的共现先验,避免了像素级全局池化的计算开销。这种局部特征与以目标为中心的全局特征的融合产生了上下文嵌入表示,从而提升了分类结果和共现目标检测性能。我们的方法在两个数据集Cityscapes和BDD100K上进行了评估,结果显示在关系一致性方面有显著提升,分别达到了0.973和0.969的类别级一致性策略(CCS)。此外,我们的方法在小目标检测(AP_S:14.1%)方面取得了显著收益,并成功恢复了通常在大分布中丢失的稀有类别,例如"火车"。我们的效率报告显示,该框架能以0.2 FPS的额外开销实时处理图像。代码已开源在https://github.com/BinayKSingh/CCFF。

0
下载
关闭预览

相关内容

《军事目标检测的合成到真实域自适应研究》
专知会员服务
17+阅读 · 3月16日
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
面向无人机视角的多源信息融合目标检测
专知会员服务
22+阅读 · 2025年2月2日
基于深度学习的视觉目标检测技术综述
专知会员服务
61+阅读 · 2022年6月22日
深度学习目标检测方法综述
专知会员服务
280+阅读 · 2020年8月1日
专知会员服务
164+阅读 · 2020年4月21日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员