Deep generative models provide flexible frameworks for modeling complex, structured data such as images, videos, 3D objects, and texts. However, when applied to sequences of human skeletons, standard variational autoencoders (VAEs) often allocate substantial capacity to nuisance factors-such as camera orientation, subject scale, viewpoint, and execution speed-rather than the intrinsic geometry of shapes and their motion. We propose the Elastic Shape - Variational Autoencoder (ES-VAE), a geometry-aware generative model for skeletal trajectories that leverages the transported square-root velocity field (TSRVF) representation on Kendall's shape manifold. This representation inherently removes rigid translations, rotations, and global scaling of shapes, and temporal rate variability of sequences, isolating the underlying shape dynamics. The ES-VAE encoder maps skeletal sequences to a low-dimensional latent space incorporating the Riemannian logarithm map, while the decoder reconstructs sequences using the corresponding exponential map. We demonstrate the effectiveness of ES-VAE on two datasets. First, we analyze skeletal gait cycles to predict clinical mobility scores and classify subjects into healthy and post-stroke groups. Second, we evaluate action recognition on the NTU RGB+D dataset. Across both settings, ES-VAE consistently outperforms standard VAEs and a range of sequence modeling baselines, including temporal convolutional networks, transformers, and graph convolutional networks. More broadly, ES-VAE provides a principled framework for learning generative models of longitudinal data on pose shape manifolds, offering improved latent representation and downstream performance compared to existing deep learning approaches.


翻译:深度生成模型为建模图像、视频、三维物体及文本等复杂结构化数据提供了灵活的框架。然而,当应用于人体骨架序列时,标准变分自编码器往往将大量容量分配给干扰因素(如相机朝向、对象尺度、视角及执行速度),而非形状及其运动的固有几何特性。我们提出弹性形状变分自编码器(ES-VAE),这是一种面向骨架轨迹的几何感知生成模型,利用Kendall形状流形上的传输平方根速度场表示。该表示本质上去除了形状的刚性平移、旋转与全局缩放,以及序列的时间速率变化,从而隔离出底层形状动态。ES-VAE编码器结合黎曼对数映射将骨架序列映射至低维潜空间,而解码器则通过相应指数映射重构序列。我们在两个数据集上验证了ES-VAE的有效性:首先分析骨架步态周期以预测临床活动能力评分并将受试者分为健康与中风后两组,其次在NTU RGB+D数据集上评估动作识别性能。在两个场景中,ES-VAE均持续优于标准VAE及一系列序列建模基线方法(包括时间卷积网络、Transformer和图卷积网络)。更广泛而言,ES-VAE为学习姿态形状流形上纵向数据的生成模型提供了规范化框架,相较于现有深度学习方法,在潜空间表征质量与下游任务性能上均有显著提升。

0
下载
关闭预览

相关内容

专知会员服务
37+阅读 · 2021年10月16日
专知会员服务
23+阅读 · 2021年3月23日
赛尔笔记 | 条件变分自编码器(CVAE)
AINLP
28+阅读 · 2019年11月8日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
专知会员服务
37+阅读 · 2021年10月16日
专知会员服务
23+阅读 · 2021年3月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员