Siamese visual trackers have recently advanced through increasingly sophisticated fusion mechanisms built on convolutional or Transformer architectures. However, both struggle to deliver pixel-level interactions efficiently on resource-constrained hardware, leading to a persistent accuracy-efficiency imbalance. Motivated by this limitation, we redesign the Siamese neck with a simple yet effective Multilayer Perception (MLP)-based fusion module that enables pixel-level interaction with minimal structural overhead. Nevertheless, naively stacking MLP blocks introduces a new challenge: computational cost can scale quadratically with channel width. To overcome this, we construct a hierarchical search space of carefully designed MLP modules and introduce a customized relaxation strategy that enables differentiable neural architecture search (DNAS) to decouple channel-width optimization from other architectural choices. This targeted decoupling automatically balances channel width and depth, yielding a low-complexity architecture. The resulting tracker achieves state-of-the-art accuracy-efficiency trade-offs. It ranks among the top performers on four general-purpose and three aerial tracking benchmarks, while maintaining real-time performance on both resource-constrained Graphics Processing Units (GPUs) and Neural Processing Units (NPUs).


翻译:孪生视觉跟踪器近期通过构建于卷积或Transformer架构上日益复杂的融合机制取得了进展。然而,这两种架构在资源受限的硬件上均难以高效实现像素级交互,导致精度与效率的失衡问题持续存在。受此局限性的启发,我们采用简单而有效的基于多层感知机(MLP)的融合模块重新设计了孪生网络颈部结构,该模块能以极小的结构开销实现像素级交互。然而,简单地堆叠MLP模块会引入新的挑战:计算成本可能随通道宽度呈二次方增长。为解决此问题,我们构建了一个由精心设计的MLP模块组成的层次化搜索空间,并引入定制化的松弛策略,使可微分神经架构搜索(DNAS)能够将通道宽度优化与其他架构选择解耦。这种定向解耦机制能自动平衡通道宽度与网络深度,从而生成低复杂度架构。所得跟踪器实现了最优的精度-效率权衡,在四个通用跟踪基准和三个空中跟踪基准中均位列前茅,同时在资源受限的图形处理器(GPU)和神经处理器(NPU)上均保持实时性能。

0
下载
关闭预览

相关内容

《边界监视多传感器融合系统中的目标跟踪》
专知会员服务
52+阅读 · 2023年6月11日
【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
专知会员服务
50+阅读 · 2021年4月15日
专知会员服务
11+阅读 · 2021年2月4日
重磅!数字孪生技术应用白皮书(2021)
专知
14+阅读 · 2021年12月8日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
【数字孪生】数字孪生技术发展趋势与安全风险浅析
产业智能官
54+阅读 · 2019年8月28日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
【数字孪生】超棒PPT解读Digital Twin十大领域应用!
产业智能官
103+阅读 · 2019年3月26日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
3+阅读 · 今天15:04
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
2+阅读 · 今天14:54
人工智能及其在海军行动中的整合(综述)
专知会员服务
2+阅读 · 今天14:07
美军MAVEN项目全面解析:算法战架构
专知会员服务
16+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
10+阅读 · 今天8:19
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员