SMTrack：面向高效视觉跟踪时序建模的状态感知Mamba模型 (SMTrack: State-Aware Mamba for Efficient Temporal Modeling in Visual Tracking) - 专知论文

会员服务 ·

0

时序 · 视觉跟踪 · 计算成本 · Mamba · 鲁棒 ·

SMTrack: State-Aware Mamba for Efficient Temporal Modeling in Visual Tracking

翻译：SMTrack：面向高效视觉跟踪时序建模的状态感知Mamba模型

Yinchao Ma,Dengqing Yang,Zhangyu He,Wenfei Yang,Tianzhu Zhang

from arxiv, This paper is accepted by IEEE TIP

Visual tracking aims to automatically estimate the state of a target object in a video sequence, which is challenging especially in dynamic scenarios. Thus, numerous methods are proposed to introduce temporal cues to enhance tracking robustness. However, conventional CNN and Transformer architectures exhibit inherent limitations in modeling long-range temporal dependencies in visual tracking, often necessitating either complex customized modules or substantial computational costs to integrate temporal cues. Inspired by the success of the state space model, we propose a novel temporal modeling paradigm for visual tracking, termed State-aware Mamba Tracker (SMTrack), providing a neat pipeline for training and tracking without needing customized modules or substantial computational costs to build long-range temporal dependencies. It enjoys several merits. First, we propose a novel selective state-aware space model with state-wise parameters to capture more diverse temporal cues for robust tracking. Second, SMTrack facilitates long-range temporal interactions with linear computational complexity during training. Third, SMTrack enables each frame to interact with previously tracked frames via hidden state propagation and updating, which releases computational costs of handling temporal cues during tracking. Extensive experimental results demonstrate that SMTrack achieves promising performance with low computational costs.

翻译：视觉跟踪旨在自动估计视频序列中目标对象的状态，这在动态场景中尤为困难。因此，众多方法被提出以引入时序线索来增强跟踪鲁棒性。然而，传统的CNN和Transformer架构在建模视觉跟踪中的长程时序依赖方面存在固有局限，通常需要复杂的定制模块或高昂的计算成本来整合时序线索。受状态空间模型成功的启发，我们提出了一种新颖的视觉跟踪时序建模范式，称为状态感知Mamba跟踪器（SMTrack），为训练和跟踪提供了一个简洁的流程，无需定制模块或高昂计算成本即可建立长程时序依赖。它具有以下优点：首先，我们提出了一种新颖的选择性状态感知空间模型，其参数随状态变化，以捕获更多样化的时序线索，实现鲁棒跟踪。其次，SMTrack在训练期间以线性计算复杂度促进长程时序交互。第三，SMTrack通过隐藏状态的传播与更新，使每一帧都能与先前跟踪的帧进行交互，从而降低了跟踪过程中处理时序线索的计算开销。大量实验结果表明，SMTrack以较低的计算成本实现了优异的性能。

0

相关内容

《遥感时序视觉语言模型》全面综述

《遥感时序视觉语言模型》全面综述

专知会员服务

30+阅读 · 2024年12月4日

《视觉中的Mamba：技术与应用》全面综述

《视觉中的Mamba：技术与应用》全面综述

专知会员服务

37+阅读 · 2024年10月7日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

美军重点项目应用 |《为广域和全动态视频中的持久目标跟踪建立外观模型》145页

美军重点项目应用 |《为广域和全动态视频中的持久目标跟踪建立外观模型》145页

专知会员服务

49+阅读 · 2024年4月11日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

阿里巴巴发布最新《时间序列Transformer建模》综述论文

阿里巴巴发布最新《时间序列Transformer建模》综述论文

专知会员服务

137+阅读 · 2022年2月16日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知会员服务

44+阅读 · 2022年1月6日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

「视频目标跟踪」最新2022研究进展综述

「视频目标跟踪」最新2022研究进展综述

专知

10+阅读 · 2022年9月26日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于受约束部分可观马氏决策模型的稀疏宽带信号感知机制的建模和控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

MonarchRT: Efficient Attention for Real-Time Video Generation

Arxiv

0+阅读 · 2月12日

SpikySpace: A Spiking State Space Model for Energy-Efficient Time Series Forecasting

Arxiv

0+阅读 · 2月10日

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Arxiv

0+阅读 · 2月9日

MambaVF: State Space Model for Efficient Video Fusion

Arxiv

0+阅读 · 2月5日

FARTrack: Fast Autoregressive Visual Tracking with High Performance

Arxiv

0+阅读 · 2月3日

GenTrack2: An Improved Hybrid Approach for Visual Multi-Object Tracking

Arxiv

0+阅读 · 2月2日

MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding

Arxiv

0+阅读 · 1月27日

UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking

Arxiv

0+阅读 · 1月21日

MAD: Motion Appearance Decoupling for efficient Driving World Models

Arxiv

0+阅读 · 1月14日

WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

《遥感时序视觉语言模型》全面综述

《遥感时序视觉语言模型》全面综述

专知会员服务

30+阅读 · 2024年12月4日

《视觉中的Mamba：技术与应用》全面综述

《视觉中的Mamba：技术与应用》全面综述

专知会员服务

37+阅读 · 2024年10月7日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

美军重点项目应用 |《为广域和全动态视频中的持久目标跟踪建立外观模型》145页

美军重点项目应用 |《为广域和全动态视频中的持久目标跟踪建立外观模型》145页

专知会员服务

49+阅读 · 2024年4月11日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

阿里巴巴发布最新《时间序列Transformer建模》综述论文

阿里巴巴发布最新《时间序列Transformer建模》综述论文

专知会员服务

137+阅读 · 2022年2月16日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知会员服务

44+阅读 · 2022年1月6日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

「视频目标跟踪」最新2022研究进展综述

「视频目标跟踪」最新2022研究进展综述

专知

10+阅读 · 2022年9月26日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

相关论文

MonarchRT: Efficient Attention for Real-Time Video Generation

Arxiv

0+阅读 · 2月12日

SpikySpace: A Spiking State Space Model for Energy-Efficient Time Series Forecasting

Arxiv

0+阅读 · 2月10日

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Arxiv

0+阅读 · 2月9日

MambaVF: State Space Model for Efficient Video Fusion

Arxiv

0+阅读 · 2月5日

FARTrack: Fast Autoregressive Visual Tracking with High Performance

Arxiv

0+阅读 · 2月3日

GenTrack2: An Improved Hybrid Approach for Visual Multi-Object Tracking

Arxiv

0+阅读 · 2月2日

MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding

Arxiv

0+阅读 · 1月27日

UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking

Arxiv

0+阅读 · 1月21日

MAD: Motion Appearance Decoupling for efficient Driving World Models

Arxiv

0+阅读 · 1月14日

WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation

Arxiv

0+阅读 · 1月13日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于受约束部分可观马氏决策模型的稀疏宽带信号感知机制的建模和控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员