Multimodal object detection leveraging RGB and Infrared (IR) images is pivotal for robust perception in all-weather scenarios. While recent adapter-based approaches efficiently transfer RGB-pretrained foundation models to this task, they often prioritize model efficiency at the expense of cross-modal structural consistency. Consequently, critical structural cues are frequently lost when significant domain gaps arise, such as in high-contrast or nighttime environments. Moreover, conventional static multimodal fusion mechanisms typically lack environmental awareness, resulting in suboptimal adaptation and constrained detection performance under complex, dynamic scene variations. To address these limitations, we propose SLGNet, a parameter-efficient framework that synergizes hierarchical structural priors and language-guided modulation within a frozen Vision Transformer (ViT)-based foundation model. Specifically, we design a Structure-Aware Adapter to extract hierarchical structural representations from both modalities and dynamically inject them into the ViT to compensate for structural degradation inherent in ViT-based backbones. Furthermore, we propose a Language-Guided Modulation module that exploits VLM-driven structured captions to dynamically recalibrate visual features, thereby endowing the model with robust environmental awareness. Extensive experiments on the LLVIP, FLIR, KAIST, and DroneVehicle datasets demonstrate that SLGNet establishes new state-of-the-art performance. Notably, on the LLVIP benchmark, our method achieves an mAP of 66.1, while reducing trainable parameters by approximately 87% compared to traditional full fine-tuning. This confirms SLGNet as a robust and efficient solution for multimodal perception.


翻译:利用RGB与红外(IR)图像的多模态目标检测对于全天气场景下的鲁棒感知至关重要。尽管近期基于适配器的方法能够高效地将RGB预训练基础模型迁移至此任务,但它们往往以牺牲跨模态结构一致性为代价来优先考虑模型效率。因此,当出现显著领域差距(例如在高对比度或夜间环境)时,关键的结构线索常常丢失。此外,传统的静态多模态融合机制通常缺乏环境感知能力,导致在复杂动态场景变化下适应性欠佳且检测性能受限。为解决这些局限性,我们提出了SLGNet,一种参数高效的框架,其在基于冻结Vision Transformer(ViT)的基础模型中协同融合了层次化结构先验与语言引导调制。具体而言,我们设计了一个结构感知适配器,用于从两种模态中提取层次化结构表征,并将其动态注入ViT,以补偿基于ViT的主干网络固有的结构退化。此外,我们提出了一个语言引导调制模块,该模块利用视觉语言模型驱动的结构化描述来动态重新校准视觉特征,从而赋予模型鲁棒的环境感知能力。在LLVIP、FLIR、KAIST和DroneVehicle数据集上的大量实验表明,SLGNet确立了新的最先进性能。值得注意的是,在LLVIP基准测试中,我们的方法实现了66.1的mAP,同时相较于传统的全参数微调,可训练参数减少了约87%。这证实了SLGNet是一种鲁棒且高效的多模态感知解决方案。

0
下载
关闭预览

相关内容

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员