DRMOT：面向RGBD指代多目标跟踪的数据集与框架 (DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking) - 专知论文

会员服务 ·

0

多目标 · 多目标跟踪 · 目标跟踪 · 数据集 · 关联 ·

DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking

翻译：DRMOT：面向RGBD指代多目标跟踪的数据集与框架

Sijia Chen,Lijuan Ma,Yanqiu Yu,En Yu,Liman Liu,Wenbing Tao

Referring Multi-Object Tracking (RMOT) aims to track specific targets based on language descriptions and is vital for interactive AI systems such as robotics and autonomous driving. However, existing RMOT models rely solely on 2D RGB data, making it challenging to accurately detect and associate targets characterized by complex spatial semantics (e.g., ``the person closest to the camera'') and to maintain reliable identities under severe occlusion, due to the absence of explicit 3D spatial information. In this work, we propose a novel task, RGBD Referring Multi-Object Tracking (DRMOT), which explicitly requires models to fuse RGB, Depth (D), and Language (L) modalities to achieve 3D-aware tracking. To advance research on the DRMOT task, we construct a tailored RGBD referring multi-object tracking dataset, named DRSet, designed to evaluate models' spatial-semantic grounding and tracking capabilities. Specifically, DRSet contains RGB images and depth maps from 187 scenes, along with 240 language descriptions, among which 56 descriptions incorporate depth-related information. Furthermore, we propose DRTrack, a MLLM-guided depth-referring tracking framework. DRTrack performs depth-aware target grounding from joint RGB-D-L inputs and enforces robust trajectory association by incorporating depth cues. Extensive experiments on the DRSet dataset demonstrate the effectiveness of our framework.

翻译：指代多目标跟踪（RMOT）旨在根据语言描述追踪特定目标，对于机器人、自动驾驶等交互式人工智能系统至关重要。然而，现有RMOT模型仅依赖二维RGB数据，由于缺乏显式的三维空间信息，难以准确检测和关联具有复杂空间语义特征的目标（例如“距离相机最近的人”），且在严重遮挡下难以维持可靠的身份一致性。本文提出一种新任务——RGBD指代多目标跟踪（DRMOT），该任务明确要求模型融合RGB、深度（D）与语言（L）模态以实现三维感知的跟踪。为推进DRMOT任务研究，我们构建了专用的RGBD指代多目标跟踪数据集DRSet，旨在评估模型的空间语义 grounding 与跟踪能力。具体而言，DRSet包含来自187个场景的RGB图像与深度图，以及240条语言描述，其中56条描述包含深度相关信息。此外，我们提出DRTrack——一种由MLLM引导的深度指代跟踪框架。该框架能够从RGB-D-L联合输入中执行深度感知的目标 grounding，并通过融入深度线索强化轨迹关联的鲁棒性。在DRSet数据集上的大量实验验证了我们框架的有效性。

0

相关内容

多目标

面向多目标跟踪的数据关联方法研究综述

面向多目标跟踪的数据关联方法研究综述

专知会员服务

24+阅读 · 2025年5月18日

跨多种数据模态的视觉目标跟踪：综述

跨多种数据模态的视觉目标跟踪：综述

专知会员服务

29+阅读 · 2024年12月16日

《基于随机有限集的多目标跟踪》290页

《基于随机有限集的多目标跟踪》290页

专知会员服务

44+阅读 · 2024年4月20日

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

专知会员服务

24+阅读 · 2022年5月31日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

65+阅读 · 2022年3月22日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

多目标跟踪中的数据关联技术综述

专知会员服务

51+阅读 · 2020年10月21日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

深度学习视频中多目标跟踪：论文综述

深度学习视频中多目标跟踪：论文综述

专知会员服务

94+阅读 · 2019年10月13日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

视频中的多目标跟踪【附PPT与视频资料】

视频中的多目标跟踪【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2018年11月29日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

深度学习的快速目标跟踪

深度学习的快速目标跟踪

AI研习社

13+阅读 · 2018年1月8日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 2月16日

Offline-Poly: A Polyhedral Framework For Offline 3D Multi-Object Tracking

Arxiv

0+阅读 · 2月14日

GenTrack2: An Improved Hybrid Approach for Multi-Object Tracking

Arxiv

0+阅读 · 2月10日

ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking

Arxiv

0+阅读 · 2月10日

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Arxiv

0+阅读 · 2月9日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

GenTrack2: An Improved Hybrid Approach for Visual Multi-Object Tracking

Arxiv

0+阅读 · 2月2日

UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking

Arxiv

0+阅读 · 1月21日

GraphIF: Enhancing Multi-Turn Instruction Following for Large Language Models with Relation Graph Prompt

Arxiv

0+阅读 · 1月15日

MDReID: Modality-Decoupled Learning for Any-to-Any Multi-Modal Object Re-Identification

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

多目标跟踪

相关VIP内容

面向多目标跟踪的数据关联方法研究综述

面向多目标跟踪的数据关联方法研究综述

专知会员服务

24+阅读 · 2025年5月18日

跨多种数据模态的视觉目标跟踪：综述

跨多种数据模态的视觉目标跟踪：综述

专知会员服务

29+阅读 · 2024年12月16日

《基于随机有限集的多目标跟踪》290页

《基于随机有限集的多目标跟踪》290页

专知会员服务

44+阅读 · 2024年4月20日

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

专知会员服务

24+阅读 · 2022年5月31日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

65+阅读 · 2022年3月22日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

基于深度学习的视觉多目标跟踪算法综述

专知会员服务

50+阅读 · 2021年4月15日

多目标跟踪中的数据关联技术综述

专知会员服务

51+阅读 · 2020年10月21日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

深度学习视频中多目标跟踪：论文综述

深度学习视频中多目标跟踪：论文综述

专知会员服务

94+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

视频中的多目标跟踪【附PPT与视频资料】

视频中的多目标跟踪【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2018年11月29日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

深度学习的快速目标跟踪

深度学习的快速目标跟踪

AI研习社

13+阅读 · 2018年1月8日

相关论文

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 2月16日

Offline-Poly: A Polyhedral Framework For Offline 3D Multi-Object Tracking

Arxiv

0+阅读 · 2月14日

GenTrack2: An Improved Hybrid Approach for Multi-Object Tracking

Arxiv

0+阅读 · 2月10日

ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking

Arxiv

0+阅读 · 2月10日

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Arxiv

0+阅读 · 2月9日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

GenTrack2: An Improved Hybrid Approach for Visual Multi-Object Tracking

Arxiv

0+阅读 · 2月2日

UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking

Arxiv

0+阅读 · 1月21日

GraphIF: Enhancing Multi-Turn Instruction Following for Large Language Models with Relation Graph Prompt

Arxiv

0+阅读 · 1月15日

MDReID: Modality-Decoupled Learning for Any-to-Any Multi-Modal Object Re-Identification

Arxiv

0+阅读 · 1月13日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于时序空间关系的目标跟踪及遮挡识别研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员