Human perception for effective object tracking in 2D video streams arises from the implicit use of prior 3D knowledge and semantic reasoning. In contrast, most generic object tracking (GOT) methods primarily rely on 2D features of the target and its surroundings, while neglecting 3D geometric cues, making them susceptible to partial occlusion, distractors, and variations in geometry and appearance. To address this limitation, we introduce GOT-Edit, an online cross-modality model editing approach that integrates geometry-aware cues into a generic object tracker from a 2D video stream. Our approach leverages features from a pre-trained Visual Geometry Grounded Transformer to infer geometric cues from only a few 2D images. To address the challenge of seamlessly combining geometry and semantics, GOT-Edit performs online model editing. By leveraging null-space constraints during model updates, it incorporates geometric information while preserving semantic discrimination, yielding consistently better performance across diverse scenarios. Extensive experiments on multiple GOT benchmarks demonstrate that GOT-Edit achieves superior robustness and accuracy, particularly under occlusion and clutter, establishing a new paradigm for combining 2D semantics with 3D geometric reasoning for generic object tracking. The project page is available at https://chenshihfang.github.io/GOT-EDIT.


翻译:人类在二维视频流中进行有效目标跟踪的感知能力,源于对先验三维知识和语义推理的隐式运用。相比之下,大多数通用目标跟踪方法主要依赖目标及其周围环境的二维特征,而忽略了三维几何线索,这使得它们容易受到部分遮挡、干扰物以及几何与外观变化的影响。为解决这一局限,我们提出了GOT-Edit,一种在线跨模态模型编辑方法,它能够从二维视频流中将几何感知线索整合到通用目标跟踪器中。我们的方法利用预训练的视觉几何基础Transformer的特征,仅从少量二维图像中推断几何线索。为了应对无缝结合几何与语义的挑战,GOT-Edit执行在线模型编辑。通过在模型更新过程中利用零空间约束,它在引入几何信息的同时保持了语义判别能力,从而在各种场景中持续获得更优的性能。在多个通用目标跟踪基准上进行的大量实验表明,GOT-Edit实现了卓越的鲁棒性和准确性,尤其是在遮挡和杂乱环境下,为将二维语义与三维几何推理相结合进行通用目标跟踪建立了一种新范式。项目页面位于 https://chenshihfang.github.io/GOT-EDIT。

0
下载
关闭预览

相关内容

标跟踪是指:给出目标在跟踪视频第一帧中的初始状态(如位置,尺寸),自动估计目标物体在后续帧中的状态。 目标跟踪分为单目标跟踪和多目标跟踪。 人眼可以比较轻松的在一段时间内跟住某个特定目标。但是对机器而言,这一任务并不简单,尤其是跟踪过程中会出现目标发生剧烈形变、被其他目标遮挡或出现相似物体干扰等等各种复杂的情况。过去几十年以来,目标跟踪的研究取得了长足的发展,尤其是各种机器学习算法被引入以来,目标跟踪算法呈现百花齐放的态势。2013年以来,深度学习方法开始在目标跟踪领域展露头脚,并逐渐在性能上超越传统方法,取得巨大的突破。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
面向无人机的视觉目标跟踪算法:综述与展望
专知会员服务
81+阅读 · 2023年2月28日
基于深度学习的视觉目标检测技术综述
专知会员服务
61+阅读 · 2022年6月22日
专知会员服务
50+阅读 · 2021年4月15日
视觉目标跟踪十年研究进展
专知会员服务
89+阅读 · 2021年3月10日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
目标跟踪算法分类
算法与数据结构
20+阅读 · 2018年9月28日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
4+阅读 · 4月12日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员