Despite significant progress in human action recognition, generalizing to diverse viewpoints remains a challenge. Most existing datasets are captured from ground-level perspectives, and models trained on them often struggle to transfer to drastically different domains such as aerial views. This paper examines how curriculum-based training strategies can improve generalization to unseen real aerial-view data without using any real aerial data during training. We explore curriculum learning for cross-view action recognition using two out-of-domain sources: synthetic aerial-view data and real ground-view data. Our results on the evaluation on order of training (fine-tuning on synthetic aerial data vs. real ground data) shows that fine-tuning on real ground data but differ in how they transition from synthetic to real. The first uses a two-stage curriculum with direct fine-tuning, while the second applies a progressive curriculum that expands the dataset in multiple stages before fine-tuning. We evaluate both methods on the REMAG dataset using SlowFast (CNN-based) and MViTv2 (Transformer-based) architectures. Results show that combining the two out-of-domain datasets clearly outperforms training on a single domain, whether real ground-view or synthetic aerial-view. Both curriculum strategies match the top-1 accuracy of simple dataset combination while offering efficiency gains. With the two-step fine-tuning method, SlowFast achieves up to a 37% reduction in iterations and MViTv2 up to a 30% reduction compared to simple combination. The multi-step progressive approach further reduces iterations, by up to 9% for SlowFast and 30% for MViTv2, relative to the two-step method. These findings demonstrate that curriculum-based training can maintain comparable performance (top-1 accuracy within 3% range) while improving training efficiency in cross-view action recognition.


翻译:尽管人体动作识别领域已取得显著进展,但模型向多样化视角的泛化能力仍面临挑战。现有数据集大多从地面视角采集,基于这些数据训练的模型往往难以迁移至差异巨大的领域(如航拍视角)。本文研究了如何在不使用任何真实航拍数据训练的情况下,通过基于课程学习的训练策略提升模型对未见真实航拍数据的泛化能力。我们利用两种域外数据源——合成航拍数据与真实地面视角数据,探索跨视角动作识别中的课程学习方法。通过对训练顺序(在合成航拍数据与真实地面数据上微调)的评估,我们发现两种策略均以真实地面数据微调收尾,但从合成数据向真实数据的过渡方式不同:第一种采用两阶段课程学习配合直接微调;第二种采用渐进式课程学习,在微调前通过多阶段逐步扩展数据集。我们在REMAG数据集上使用SlowFast(基于CNN)和MViTv2(基于Transformer)架构对两种方法进行评估。结果表明,结合两种域外数据集的训练效果明显优于单一领域(无论是真实地面视角还是合成航拍视角)训练。两种课程学习策略在达到与简单数据集组合相当的top-1准确率的同时,显著提升了训练效率。采用两步微调法时,与简单组合相比,SlowFast的迭代次数最多减少37%,MViTv2最多减少30%。而多步渐进式方法进一步降低了迭代次数:相较于两步法,SlowFast最多减少9%,MViTv2最多减少30%。这些发现证明,在跨视角动作识别任务中,基于课程学习的训练方法能在保持可比性能(top-1准确率差异在3%以内)的同时,有效提升训练效率。

0
下载
关闭预览

相关内容

《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
39+阅读 · 2025年10月30日
《用于空战机动的分层多智能体强化学习》
专知会员服务
66+阅读 · 2023年10月5日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
47+阅读 · 2022年8月17日
首篇「课程学习(Curriculum Learning)」2021综述论文
专知会员服务
50+阅读 · 2021年1月31日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
一文看懂如何将深度学习应用于视频动作识别
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员