We present a novel approach for egocentric action recognition that leverages 2D point tracks as an additional motion cue. While most existing methods rely on RGB appearance, human pose estimation, or their combination, our work demonstrates that tracking randomly sampled image points across video frames can substantially improve recognition accuracy. Unlike prior approaches, we do not detect hands, objects, or interaction regions. Instead, we employ CoTracker to follow a set of randomly initialized points through each video and use the resulting trajectories, together with the corresponding image frames, as input to a Transformer-based recognition model. Surprisingly, our method achieves notable gains even when only the initial frame and its associated point tracks are provided, without incorporating the full video sequence. Experimental results confirm that integrating 2D point tracks consistently enhances performance compared to the same model trained without motion information, highlighting their potential as a lightweight yet effective representation for egocentric action understanding.


翻译:本文提出了一种新颖的自我中心动作识别方法,该方法利用二维点轨迹作为额外的运动线索。尽管现有方法大多依赖于RGB外观、人体姿态估计或其组合,我们的研究表明,通过视频帧跟踪随机采样的图像点能够显著提升识别准确率。与先前方法不同,我们无需检测手部、物体或交互区域。相反,我们采用CoTracker对每个视频中一组随机初始化的点进行跟踪,并将生成的轨迹与对应的图像帧一同作为基于Transformer的识别模型的输入。令人惊讶的是,即使仅提供初始帧及其关联的点轨迹而不使用完整视频序列,我们的方法仍能取得显著性能提升。实验结果证实,与未引入运动信息的相同模型相比,整合二维点轨迹能够持续提升性能,这凸显了其作为轻量且有效的自我中心动作理解表征的潜力。

0
下载
关闭预览

相关内容

【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
33+阅读 · 2022年3月18日
专知会员服务
20+阅读 · 2021年3月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员