Group activity detection in multi-person scenes is challenging due to complex human interactions, occlusions, and variations in appearance over time. This work presents a computer vision based framework for group activity recognition and action spotting using a combination of deep learning models and graph based relational reasoning. The system first applies Mask R-CNN to obtain accurate actor localization through bounding boxes and instance masks. Multiple backbone networks, including Inception V3, MobileNet, and VGG16, are used to extract feature maps, and RoIAlign is applied to preserve spatial alignment when generating actor specific features. The mask information is then fused with the feature maps to obtain refined masked feature representations for each actor. To model interactions between individuals, we construct Actor Relation Graphs that encode appearance similarity and positional relations using methods such as normalized cross correlation, sum of absolute differences, and dot product. Graph Convolutional Networks operate on these graphs to reason about relationships and predict both individual actions and group level activities. Experiments on the Collective Activity dataset demonstrate that the combination of mask based feature refinement, robust similarity search, and graph neural network reasoning leads to improved recognition performance across both crowded and non crowded scenarios. This approach highlights the potential of integrating segmentation, feature extraction, and relational graph reasoning for complex video understanding tasks.


翻译:多人场景中的群体活动检测因复杂的人际交互、遮挡以及外观随时间变化而具有挑战性。本研究提出了一种基于计算机视觉的框架,通过结合深度学习模型与基于图的关系推理,实现群体活动识别与动作定位。该系统首先应用Mask R-CNN通过边界框和实例掩码获取精确的参与者定位。采用包括Inception V3、MobileNet和VGG16在内的多种骨干网络提取特征图,并应用RoIAlign在生成参与者特定特征时保持空间对齐。掩码信息随后与特征图融合,为每个参与者获得精细化的掩码特征表示。为建模个体间的交互,我们构建了参与者关系图,通过归一化互相关、绝对差值和及点积等方法编码外观相似性与位置关系。图卷积网络在这些图上操作,以推理关系并同时预测个体动作与群体层级活动。在Collective Activity数据集上的实验表明,基于掩码的特征细化、鲁棒的相似性搜索与图神经网络推理相结合,在拥挤与非拥挤场景下均能提升识别性能。该方法凸显了将分割、特征提取与关系图推理相结合在复杂视频理解任务中的潜力。

0
下载
关闭预览

相关内容

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员