GOT-Edit：通过在线模型编辑实现几何感知的通用目标跟踪 (GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing) - 专知论文

会员服务 ·

0

目标跟踪 · 在线 · 模型编辑 · 几何感知 · 视频 ·

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

翻译：GOT-Edit：通过在线模型编辑实现几何感知的通用目标跟踪

Shih-Fang Chen,Jun-Cheng Chen,I-Hong Jhuo,Yen-Yu Lin

from arxiv, ICLR 2026. This is a preprint version. The camera-ready version will be updated soon

Human perception for effective object tracking in a 2D video stream arises from the implicit use of prior 3D knowledge combined with semantic reasoning. In contrast, most generic object tracking (GOT) methods primarily rely on 2D features of the target and its surroundings while neglecting 3D geometric cues, which makes them susceptible to partial occlusion, distractors, and variations in geometry and appearance. To address this limitation, we introduce GOT-Edit, an online cross-modality model editing approach that integrates geometry-aware cues into a generic object tracker from a 2D video stream. Our approach leverages features from a pre-trained Visual Geometry Grounded Transformer to enable geometric cue inference from only a few 2D images. To tackle the challenge of seamlessly combining geometry and semantics, GOT-Edit performs online model editing with null-space constrained updates that incorporate geometric information while preserving semantic discrimination, yielding consistently better performance across diverse scenarios. Extensive experiments on multiple GOT benchmarks demonstrate that GOT-Edit achieves superior robustness and accuracy, particularly under occlusion and clutter, establishing a new paradigm for combining 2D semantics with 3D geometric reasoning for generic object tracking.

翻译：人类在二维视频流中进行有效目标跟踪的感知能力，源于对先验三维知识的隐式运用与语义推理的结合。相比之下，大多数通用目标跟踪方法主要依赖于目标及其周围环境的二维特征，而忽略了三维几何线索，这使得它们容易受到部分遮挡、干扰物以及几何与外观变化的影响。为克服这一局限，我们提出了GOT-Edit，一种在线跨模态模型编辑方法，能够将几何感知线索从二维视频流中整合到通用目标跟踪器中。我们的方法利用预训练的视觉几何基础Transformer的特征，仅从少量二维图像即可推断几何线索。为应对几何与语义无缝融合的挑战，GOT-Edit通过零空间约束更新进行在线模型编辑，在融入几何信息的同时保持语义判别能力，从而在各种场景中实现持续更优的性能。在多个通用目标跟踪基准上的大量实验表明，GOT-Edit实现了卓越的鲁棒性和准确性，尤其在遮挡和杂乱环境下，为将二维语义与三维几何推理相结合进行通用目标跟踪建立了新范式。

0

相关内容

目标跟踪

标跟踪是指：给出目标在跟踪视频第一帧中的初始状态（如位置，尺寸），自动估计目标物体在后续帧中的状态。目标跟踪分为单目标跟踪和多目标跟踪。人眼可以比较轻松的在一段时间内跟住某个特定目标。但是对机器而言，这一任务并不简单，尤其是跟踪过程中会出现目标发生剧烈形变、被其他目标遮挡或出现相似物体干扰等等各种复杂的情况。过去几十年以来，目标跟踪的研究取得了长足的发展，尤其是各种机器学习算法被引入以来，目标跟踪算法呈现百花齐放的态势。2013年以来，深度学习方法开始在目标跟踪领域展露头脚，并逐渐在性能上超越传统方法，取得巨大的突破。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

跨多种数据模态的视觉目标跟踪：综述

跨多种数据模态的视觉目标跟踪：综述

专知会员服务

29+阅读 · 2024年12月16日

面向无人机的视觉目标跟踪算法：综述与展望

面向无人机的视觉目标跟踪算法：综述与展望

专知会员服务

81+阅读 · 2023年2月28日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

视频中的多目标跟踪【附PPT与视频资料】

视频中的多目标跟踪【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2018年11月29日

目标跟踪算法分类

目标跟踪算法分类

算法与数据结构

20+阅读 · 2018年9月28日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

计算机视觉中，有哪些比较好的目标跟踪算法？（下）

计算机视觉中，有哪些比较好的目标跟踪算法？（下）

AI研习社

17+阅读 · 2017年11月23日

计算机视觉中，有哪些比较好的目标跟踪算法？（上）

计算机视觉中，有哪些比较好的目标跟踪算法？（上）

AI研习社

15+阅读 · 2017年11月22日

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

AI科技评论

12+阅读 · 2017年9月17日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于深度学习的高频地波雷达特定目标跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

距离选通编码超分辨率三维成像方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 2月16日

MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps

Arxiv

0+阅读 · 2月11日

GenTrack2: An Improved Hybrid Approach for Multi-Object Tracking

Arxiv

0+阅读 · 2月10日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 2月5日

GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning

Arxiv

0+阅读 · 2月4日

GenTrack2: An Improved Hybrid Approach for Visual Multi-Object Tracking

Arxiv

0+阅读 · 2月2日

TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability

Arxiv

0+阅读 · 2月1日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月27日

Data-Driven Feature Tracking for Event Cameras With and Without Frames

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

相关VIP内容

跨多种数据模态的视觉目标跟踪：综述

跨多种数据模态的视觉目标跟踪：综述

专知会员服务

29+阅读 · 2024年12月16日

面向无人机的视觉目标跟踪算法：综述与展望

面向无人机的视觉目标跟踪算法：综述与展望

专知会员服务

81+阅读 · 2023年2月28日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

【干货】深度学习视觉跟踪:论文最新综述，23页pdf，Deep Learning for Visual Tracking: A Comprehensive Survey

专知会员服务

58+阅读 · 2019年12月2日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

视频中的多目标跟踪【附PPT与视频资料】

视频中的多目标跟踪【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2018年11月29日

目标跟踪算法分类

目标跟踪算法分类

算法与数据结构

20+阅读 · 2018年9月28日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

计算机视觉中，有哪些比较好的目标跟踪算法？（下）

计算机视觉中，有哪些比较好的目标跟踪算法？（下）

AI研习社

17+阅读 · 2017年11月23日

计算机视觉中，有哪些比较好的目标跟踪算法？（上）

计算机视觉中，有哪些比较好的目标跟踪算法？（上）

AI研习社

15+阅读 · 2017年11月22日

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

AI科技评论

12+阅读 · 2017年9月17日

相关论文

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 2月16日

MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps

Arxiv

0+阅读 · 2月11日

GenTrack2: An Improved Hybrid Approach for Multi-Object Tracking

Arxiv

0+阅读 · 2月10日

AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Arxiv

0+阅读 · 2月10日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 2月5日

GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning

Arxiv

0+阅读 · 2月4日

GenTrack2: An Improved Hybrid Approach for Visual Multi-Object Tracking

Arxiv

0+阅读 · 2月2日

TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability

Arxiv

0+阅读 · 2月1日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月27日

Data-Driven Feature Tracking for Event Cameras With and Without Frames

Arxiv

0+阅读 · 1月15日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于深度学习的高频地波雷达特定目标跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

距离选通编码超分辨率三维成像方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员