The recognition of dynamic and social behavior in animals is fundamental for advancing ethology, ecology, medicine and neuroscience. Recent progress in deep learning has enabled automated behavior recognition from video, yet an accurate reconstruction of the three-dimensional (3D) pose and shape has not been integrated into this process. Especially for non-human primates, mesh-based tracking efforts lag behind those for other species, leaving pose descriptions restricted to sparse keypoints that are unable to fully capture the richness of action dynamics. To address this gap, we introduce the $\textbf{Big Ma}$ca$\textbf{Q}$ue 3D Motion and Animation Dataset ($\texttt{BigMaQ}$), a large-scale dataset comprising more than 750 scenes of interacting rhesus macaques with detailed 3D pose descriptions. Extending previous surface-based animal tracking methods, we construct subject-specific textured avatars by adapting a high-quality macaque template mesh to individual monkeys. This allows us to provide pose descriptions that are more accurate than previous state-of-the-art surface-based animal tracking methods. From the original dataset, we derive BigMaQ500, an action recognition benchmark that links surface-based pose vectors to single frames across multiple individual monkeys. By pairing features extracted from established image and video encoders with and without our pose descriptors, we demonstrate substantial improvements in mean average precision (mAP) when pose information is included. With these contributions, $\texttt{BigMaQ}$ establishes the first dataset that both integrates dynamic 3D pose-shape representations into the learning task of animal action recognition and provides a rich resource to advance the study of visual appearance, posture, and social interaction in non-human primates. The code and data are publicly available at https://martinivis.github.io/BigMaQ/ .


翻译:动物动态行为与社会行为的识别是推动动物行为学、生态学、医学和神经科学发展的基础。深度学习的近期进展已使得从视频中自动识别行为成为可能,但精确的三维姿态与形状重建尚未被整合到这一过程中。特别是对于非人灵长类动物,基于网格的追踪研究落后于其他物种,导致姿态描述仅限于稀疏的关键点,无法完整捕捉动作动态的丰富性。为填补这一空白,我们引入了 **Big Ma**ca**Q**ue 三维运动与动画数据集(`BigMaQ`),这是一个包含超过750个互动恒河猴场景的大规模数据集,并提供了详细的三维姿态描述。通过扩展先前基于表面的动物追踪方法,我们通过将高质量的猕猴模板网格适配到个体猴子,构建了主体特定的带纹理虚拟化身。这使得我们能够提供比先前最先进的基于表面的动物追踪方法更精确的姿态描述。从原始数据集中,我们衍生出 BigMaQ500,这是一个动作识别基准,将基于表面的姿态向量与多个个体猴子的单帧图像关联起来。通过将来自成熟图像与视频编码器提取的特征(无论是否包含我们的姿态描述符)进行配对,我们证明了当包含姿态信息时,平均精度均值(mAP)有显著提升。凭借这些贡献,`BigMaQ` 建立了首个既将动态三维姿态-形状表示整合到动物动作识别学习任务中,又为推进非人灵长类动物的视觉外观、姿态及社会交互研究提供了丰富资源的数据集。代码与数据公开于 https://martinivis.github.io/BigMaQ/ 。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
TPAMI 2022 | 最新综述:基于不同数据模态的行为识别
专知会员服务
53+阅读 · 2022年7月2日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
40+阅读 · 2021年8月31日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员