Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.


翻译:离散运动标记化技术近期使得大语言模型(LLMs)能够作为运动理解与运动-语言推理的多功能骨干网络。然而,现有流程通常将运动量化与语义嵌入学习解耦,仅通过标记ID建立关联。这种方法未能有效对齐运动空间的内在几何结构与嵌入空间,从而限制了大语言模型进行精细运动推理的能力。我们认为,当两种模态共享统一的几何基础时,对齐效果最为显著。因此,我们提出了一种新颖框架,不再强制大语言模型从零开始重建运动标记间的复杂几何关系,而是通过对运动码本和LLM嵌入空间同时施加正交性约束,确保二者的关系结构自然映射。具体而言,我们采用基于Gumbel-Softmax的仅解码器量化器实现可微分训练与平衡的码本使用。为桥接两种模态,我们使用稀疏投影将运动编码映射至LLM嵌入空间,同时保持正交性。最后,通过两阶段正交正则化调度方案,在标记器训练和LLM微调过程中实施软约束,在维持几何对齐的同时不阻碍语义适应。在HumanML3D数据集上的大量实验表明,我们的框架相比当前最优方法实现了20%的性能提升,验证了统一几何基础能有效增强大语言模型的精细运动推理能力。

0
下载
关闭预览

相关内容

UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员