Referring Multi-Object Tracking (RMOT) aims to track targets specified by language instructions. However, existing RMOT paradigms are largely designed for explicit instructions and consequently fail to generalize to complex instructions that require logical reasoning. To overcome this, we propose Reasoning-based Multi-Object Tracking (ReaMOT), a novel task that requires models to identify and track targets that satisfy implicit constraints via logical reasoning. To advance this field, we construct the ReaMOT Challenge, a comprehensive benchmark comprising: (1) a large-scale dataset with 1,156 instructions categorized into High-Level Reasoning and Low-Level Perception, covering 423,359 image-language pairs across 869 diverse scenes; and (2) a tailored metric suite designed to jointly evaluate reasoning accuracy and tracking robustness. Furthermore, we propose ReaTrack, a training-free framework that synergizes the reasoning capabilities of Thinking-variant Large Vision-Language Model (LVLM) with the precise temporal modeling of SAM2. Extensive experiments on the ReaMOT Challenge benchmark demonstrates the effectiveness of our ReaTrack framework.


翻译:指代多目标跟踪(RMOT)旨在根据语言指令跟踪指定目标。然而,现有的RMOT范式主要针对显式指令设计,因此难以泛化到需要逻辑推理的复杂指令。为克服这一局限,我们提出了基于推理的多目标跟踪(ReaMOT)这一新任务,要求模型通过逻辑推理识别并跟踪满足隐式约束的目标。为推进该领域发展,我们构建了ReaMOT Challenge基准,包含:(1)大规模数据集,涵盖1,156条指令并划分为高级推理与低级感知两类,包含869个多样化场景中的423,359个图像-语言对;(2)专门设计的评估指标套件,用于联合评估推理准确性与跟踪鲁棒性。此外,我们提出了ReaTrack,一种免训练框架,该框架将Thinking变体大型视觉语言模型(LVLM)的推理能力与SAM2的精确时序建模能力相结合。在ReaMOT Challenge基准上的大量实验验证了我们ReaTrack框架的有效性。

0
下载
关闭预览

相关内容

跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
35+阅读 · 2023年3月26日
专知会员服务
50+阅读 · 2021年4月15日
深度学习视频中多目标跟踪:论文综述
专知会员服务
94+阅读 · 2019年10月13日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
64+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
马赛克战:俄乌战场透析
专知会员服务
1+阅读 · 今天4:12
《利用人工智能增强军事决策》
专知会员服务
0+阅读 · 今天4:09
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
1+阅读 · 今天4:02
为何指挥所生存能力要求范式转变
专知会员服务
0+阅读 · 今天3:54
打造“新蛛网”模式与高科技动员
专知会员服务
0+阅读 · 今天3:33
“蛛网”行动一周年:远程无人机战争
专知会员服务
0+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
5+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
8+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
5+阅读 · 6月9日
相关VIP内容
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
35+阅读 · 2023年3月26日
专知会员服务
50+阅读 · 2021年4月15日
深度学习视频中多目标跟踪:论文综述
专知会员服务
94+阅读 · 2019年10月13日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
64+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员