不确定性引导的推理时深度自适应Transformer视觉跟踪 (Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking) - 专知论文

会员服务 ·

0

不确定 · 自适应 · 不确定性 · Transformer · 视觉跟踪 ·

Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking

翻译：不确定性引导的推理时深度自适应Transformer视觉跟踪

Patrick Poggi,Divake Kumar,Theja Tulabandhula,Amit Ranjan Trivedi

from arxiv, Submitted to IJCNN 2026

Transformer-based single-object trackers achieve state-of-the-art accuracy but rely on fixed-depth inference, executing the full encoder--decoder stack for every frame regardless of visual complexity, thereby incurring unnecessary computational cost in long video sequences dominated by temporally coherent frames. We propose UncL-STARK, an architecture-preserving approach that enables dynamic, uncertainty-aware depth adaptation in transformer-based trackers without modifying the underlying network or adding auxiliary heads. The model is fine-tuned to retain predictive robustness at multiple intermediate depths using random-depth training with knowledge distillation, thus enabling safe inference-time truncation. At runtime, we derive a lightweight uncertainty estimate directly from the model's corner localization heatmaps and use it in a feedback-driven policy that selects the encoder and decoder depth for the next frame based on the prediction confidence by exploiting temporal coherence in video. Extensive experiments on GOT-10k and LaSOT demonstrate up to 12\% GFLOPs reduction, 8.9\% latency reduction, and 10.8\% energy savings while maintaining tracking accuracy within 0.2\% of the full-depth baseline across both short-term and long-term sequences.

翻译：基于Transformer的单目标跟踪器实现了最先进的精度，但依赖于固定深度的推理，即对每一帧都执行完整的编码器-解码器堆栈，而不考虑视觉复杂度，因此在以时间相干帧为主的长视频序列中产生不必要的计算成本。我们提出UncL-STARK，一种保持架构不变的方法，能够在基于Transformer的跟踪器中实现动态、不确定性感知的深度自适应，无需修改底层网络或添加辅助头。该模型通过随机深度训练与知识蒸馏进行微调，以在多个中间深度保持预测鲁棒性，从而实现安全的推理时截断。在运行时，我们直接从模型的角点定位热图中推导出轻量级不确定性估计，并将其用于反馈驱动的策略中；该策略利用视频中的时间相干性，根据预测置信度为下一帧选择编码器和解码器的深度。在GOT-10k和LaSOT上的大量实验表明，该方法在短期和长期序列中均能保持跟踪精度与全深度基线相差不超过0.2%的同时，实现高达12%的GFLOPs减少、8.9%的延迟降低和10.8%的能耗节省。

0

相关内容

不确定

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

Event-based Visual Deformation Measurement

Arxiv

0+阅读 · 2月16日

Ask the Expert: Collaborative Inference for Vision Transformers with Near-Edge Accelerators

Arxiv

0+阅读 · 2月11日

Linear Transformers as VAR Models: Aligning Autoregressive Attention Mechanisms with Autoregressive Forecasting

Arxiv

0+阅读 · 2月5日

CoWTracker: Tracking by Warping instead of Correlation

Arxiv

0+阅读 · 2月4日

FARTrack: Fast Autoregressive Visual Tracking with High Performance

Arxiv

0+阅读 · 2月3日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

Rate-Distortion Optimization for Transformer Inference

Arxiv

0+阅读 · 1月29日

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Arxiv

0+阅读 · 1月28日

Interleaved Latent Visual Reasoning with Selective Perceptual Modeling

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

相关论文

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

Event-based Visual Deformation Measurement

Arxiv

0+阅读 · 2月16日

Ask the Expert: Collaborative Inference for Vision Transformers with Near-Edge Accelerators

Arxiv

0+阅读 · 2月11日

Linear Transformers as VAR Models: Aligning Autoregressive Attention Mechanisms with Autoregressive Forecasting

Arxiv

0+阅读 · 2月5日

CoWTracker: Tracking by Warping instead of Correlation

Arxiv

0+阅读 · 2月4日

FARTrack: Fast Autoregressive Visual Tracking with High Performance

Arxiv

0+阅读 · 2月3日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

Rate-Distortion Optimization for Transformer Inference

Arxiv

0+阅读 · 1月29日

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Arxiv

0+阅读 · 1月28日

Interleaved Latent Visual Reasoning with Selective Perceptual Modeling

Arxiv

0+阅读 · 1月21日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员