Transformer-based single-object trackers achieve state-of-the-art accuracy but rely on fixed-depth inference, executing the full encoder--decoder stack for every frame regardless of visual complexity, thereby incurring unnecessary computational cost in long video sequences dominated by temporally coherent frames. We propose UncL-STARK, an architecture-preserving approach that enables dynamic, uncertainty-aware depth adaptation in transformer-based trackers without modifying the underlying network or adding auxiliary heads. The model is fine-tuned to retain predictive robustness at multiple intermediate depths using random-depth training with knowledge distillation, thus enabling safe inference-time truncation. At runtime, we derive a lightweight uncertainty estimate directly from the model's corner localization heatmaps and use it in a feedback-driven policy that selects the encoder and decoder depth for the next frame based on the prediction confidence by exploiting temporal coherence in video. Extensive experiments on GOT-10k and LaSOT demonstrate up to 12% GFLOPs reduction, 8.9% latency reduction, and 10.8% energy savings while maintaining tracking accuracy within 0.2% of the full-depth baseline across both short-term and long-term sequences.


翻译:基于Transformer的单目标跟踪器实现了最先进的精度,但依赖于固定深度的推理,即对每一帧都执行完整的编码器-解码器堆栈,而不考虑视觉复杂度,因此在由时间相干帧主导的长视频序列中会产生不必要的计算成本。我们提出了UncL-STARK,一种保持架构不变的方法,能够在基于Transformer的跟踪器中实现动态的、不确定性感知的深度自适应,而无需修改底层网络或添加辅助头。该模型通过随机深度训练结合知识蒸馏进行微调,以在多个中间深度保持预测鲁棒性,从而实现安全的推理时截断。在运行时,我们直接从模型的角点定位热图中推导出一个轻量级的不确定性估计,并将其用于一个反馈驱动的策略中;该策略利用视频中的时间相干性,根据预测置信度为下一帧选择编码器和解码器的深度。在GOT-10k和LaSOT上进行的大量实验表明,该方法在短期和长期序列中均能保持跟踪精度在完整深度基线的0.2%以内,同时实现了高达12%的GFLOPs减少、8.9%的延迟降低和10.8%的能耗节省。

0
下载
关闭预览

相关内容

【2023新书】基于深度学习的视觉目标跟踪
专知会员服务
90+阅读 · 2023年10月10日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
深度学习的快速目标跟踪
AI研习社
13+阅读 · 2018年1月8日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
1+阅读 · 50分钟前
《多域作战面临复杂现实》
专知会员服务
1+阅读 · 52分钟前
《印度的多域作战:条令与能力发展》报告
专知会员服务
0+阅读 · 今天5:24
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
6+阅读 · 4月23日
国外海军作战管理系统与作战训练系统
专知会员服务
3+阅读 · 4月23日
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 4月23日
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 4月23日
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 4月23日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员