Reliable co-speech motion generation requires precise motion representation and consistent structural priors across all joints. Existing generative methods typically operate on local joint rotations, which are defined hierarchically based on the skeleton structure. This leads to cumulative errors during generation, manifesting as unstable and implausible motions at end-effectors. In this work, we propose GlobalDiff, a diffusion-based framework that operates directly in the space of global joint rotations for the first time, fundamentally decoupling each joint's prediction from upstream dependencies and alleviating hierarchical error accumulation. To compensate for the absence of structural priors in global rotation space, we introduce a multi-level constraint scheme. Specifically, a joint structure constraint introduces virtual anchor points around each joint to better capture fine-grained orientation. A skeleton structure constraint enforces angular consistency across bones to maintain structural integrity. A temporal structure constraint utilizes a multi-scale variational encoder to align the generated motion with ground-truth temporal patterns. These constraints jointly regularize the global diffusion process and reinforce structural awareness. Extensive evaluations on standard co-speech benchmarks show that GlobalDiff generates smooth and accurate motions, improving the performance by 46.0 % compared to the current SOTA under multiple speaker identities.


翻译:可靠的伴随语音运动生成需要精确的运动表征和跨所有关节的一致性结构先验。现有生成方法通常基于局部关节旋转进行操作,这些旋转根据骨架结构以层级方式定义。这会导致生成过程中的累积误差,表现为末端执行器的不稳定且不合理的运动。本研究首次提出GlobalDiff——一个直接在全局关节旋转空间中操作的扩散框架,从根本上解耦了每个关节的预测与上游依赖性,缓解了层级误差累积。为弥补全局旋转空间中结构先验的缺失,我们引入了一种多级约束方案。具体而言,关节结构约束在每个关节周围引入虚拟锚点以更好地捕捉细粒度朝向;骨架结构约束强制骨骼间的角度一致性以保持结构完整性;时序结构约束利用多尺度变分编码器将生成的运动与真实时序模式对齐。这些约束共同规范全局扩散过程并增强结构感知能力。在标准伴随语音基准上的大量评估表明,GlobalDiff能生成平滑准确的运动,在多种说话人身份下相比当前最优方法的性能提升达46.0%。

0
下载
关闭预览

相关内容

《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员