In remote sensing object detection, Convolutional Neural Networks (CNNs) excel at capturing local details while Vision Transformers (ViTs) are better at global context modeling. However, existing detectors typically rely on a single fixed backbone or a manually designed hybrid architecture, and thus fail to adaptively exploit these complementary strengths across inputs of diverse complexity. To address this limitation, we propose Backbone Module Composition via Reinforcement Learning (BMCR). BMCR dynamically assembles input-adaptive inference paths from reusable modules decomposed from off-the-shelf CNN and ViT backbones. To enable such cross-family composition, we first construct an extensible module toolbox. Specifically, we decompose representative CNN and ViT backbones into reusable functional modules and encapsulate each module with explicit structural, semantic, and computational metadata for compatibility-aware assembly. To bridge the gap between grid-based CNN features and token-based ViT representations, we design a lightweight Optimal Transport (OT) based transition interface that ensures distribution-aware alignment while respecting spatial consistency. The backbone composition process is then formulated as a sequential decision problem, in which a policy network progressively selects task-relevant modules according to intermediate multi-scale observations. To stabilize the joint optimization of reusable modules and the routing policy, we further develop an Adaptive Module Cooperative Optimization (AMCO) strategy that coordinates module updating, routing exploration, and reward assignment during training. On DOTA-v1.0, DOTA-v1.5 and DIOR-R, BMCR achieves 79.31\%, 73.41\% and 71.86\% mAP, respectively, surpassing strong static and dynamic baselines by up to 2.5 points while maintaining competitive efficiency.


翻译:在遥感目标检测中,卷积神经网络(CNN)擅长捕捉局部细节,而视觉Transformer(ViT)更擅长全局上下文建模。然而,现有检测器通常依赖单一固定骨干网络或人工设计的混合架构,因此无法根据输入复杂度的多样性自适应地利用这些互补优势。针对这一局限,我们提出基于强化学习的骨干模块组合方法(BMCR)。BMCR从现成CNN和ViT骨干网络分解出的可复用模块中,动态组装输入自适应推理路径。为实现跨家族模块组合,我们首先构建了一个可扩展的模块工具箱。具体而言,我们将代表性CNN和ViT骨干网络分解为可复用的功能模块,并封装每个模块的显式结构、语义和计算元数据,以支持兼容性感知的组装。为弥合基于网格的CNN特征与基于标记的ViT表示之间的差距,我们设计了一种轻量级基于最优传输(OT)的过渡接口,在保证空间一致性的同时实现分布感知的对齐。随后,骨干网络组合过程被建模为序列决策问题,策略网络根据中间多尺度观测逐步选择任务相关模块。为稳定可复用模块与路由策略的联合优化,我们进一步开发了自适应模块协同优化(AMCO)策略,在训练过程中协调模块更新、路由探索与奖励分配。在DOTA-v1.0、DOTA-v1.5和DIOR-R数据集上,BMCR分别实现了79.31%、73.41%和71.86%的mAP,在保持竞争性效率的同时,比强大的静态和动态基线高出最多2.5个百分点。

0
下载
关闭预览

相关内容

遥感中的视觉Mamba:技术、应用与前景的综合综述
专知会员服务
13+阅读 · 2025年5月2日
《模型量化与视觉变换器硬件加速》综述
专知会员服务
23+阅读 · 2024年5月5日
使用多层胶囊网络的国防军事目标检测
专知会员服务
46+阅读 · 2022年8月14日
基于深度学习的图像目标检测算法综述
专知会员服务
100+阅读 · 2022年4月15日
专知会员服务
28+阅读 · 2021年8月24日
基于深度学习的视频目标检测综述
专知会员服务
84+阅读 · 2021年5月19日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于深度学习的图像目标检测(下)
机器学习研究会
12+阅读 · 2018年1月1日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
深度学习(可视化部分)-使用keras识别猫咪
北京思腾合力科技有限公司
10+阅读 · 2017年11月30日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
13+阅读 · 2023年2月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关资讯
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于深度学习的图像目标检测(下)
机器学习研究会
12+阅读 · 2018年1月1日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
深度学习(可视化部分)-使用keras识别猫咪
北京思腾合力科技有限公司
10+阅读 · 2017年11月30日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员