Conventional RGB cameras have been widely used in multi-object tracking due to their ability to capture rich appearance and semantic information. However, their performance is often degraded under complex real-world challenges, such as motion blur, low illumination, and overexposure. Bio-inspired event cameras offer high temporal resolution and high dynamic range, providing complementary cues under extreme scenarios. Nevertheless, RGB-event multi-object tracking remains underexplored due to the lack of large-scale and well-annotated datasets. To address this issue, we propose FEMOT, a large-scale RGB-event multi-object tracking dataset that covers diverse real-world scenarios and 14 challenging attributes. With both RGB and event data as well as high-quality annotations, FEMOT provides a reliable platform for systematically evaluating RGB-event multi-object tracking methods. Based on FEMOT, we retrain and evaluate over ten strong trackers, thereby establishing a comprehensive benchmark for future research. Furthermore, we propose FEMOTR, a multimodal tracking framework that decouples RGB and event features and fuses them in the frequency domain, thereby effectively exploiting their complementary characteristics for robust object localization and identity association. Extensive experiments on FEMOT and DSEC-MOT datasets demonstrate the effectiveness of the proposed method. The source code and benchmark dataset have been released on https://github.com/Event-AHU/FEMOT.


翻译:传统RGB相机因能捕获丰富的表观与语义信息而被广泛用于多目标跟踪,但在运动模糊、低光照和过曝等复杂现实场景下,其性能常显著下降。受生物启发的神经形态事件相机凭借高时间分辨率与高动态范围的优势,在极端场景中提供了互补性线索。然而,由于缺乏大规模且标注完善的基准数据集,基于RGB-事件的多目标跟踪技术仍处于探索阶段。为解决该问题,我们提出FEMOT——首个覆盖多种真实场景与14种挑战性属性的RGB-事件多目标跟踪大规模数据集。该数据集同时提供RGB数据、事件数据及高质量标注,为系统评估RGB-事件多目标跟踪方法提供了可靠平台。基于FEMOT,我们重新训练并评测十余种强基线跟踪器,构建了面向未来研究的综合性基准。此外,本文提出FEMOTR多模态跟踪框架:该框架通过解耦RGB特征与事件特征,并在频域实现特征融合,从而有效利用两者互补特性实现鲁棒的目标定位与身份关联。在FEMOT与DSEC-MOT数据集上的大量实验验证了所提方法的有效性。源代码与基准数据集已发布于https://github.com/Event-AHU/FEMOT。

0
下载
关闭预览

相关内容

一文详解50多种多模态图像融合方法
专知会员服务
48+阅读 · 2024年4月6日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
18+阅读 · 2021年10月30日
计算机视觉方向简介 | 多视角立体视觉MVS
计算机视觉life
15+阅读 · 2019年10月10日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
新型相机DVS/Event-based camera的发展及应用
计算机视觉life
16+阅读 · 2019年3月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
13+阅读 · 2021年10月22日
Arxiv
10+阅读 · 2018年3月10日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
一文详解50多种多模态图像融合方法
专知会员服务
48+阅读 · 2024年4月6日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
18+阅读 · 2021年10月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员