Most existing evaluations of text-to-motion generation focus on in-distribution textual inputs and a limited set of evaluation criteria, which restricts their ability to systematically assess model generalization and motion generation capabilities under complex out-of-distribution (OOD) textual conditions. To address this limitation, we propose a benchmark specifically designed for OOD text-to-motion evaluation, which includes a comprehensive analysis of 14 representative baseline models and the two datasets derived from evaluation results. Specifically, we construct an OOD prompt dataset consisting of 1,025 textual descriptions. Based on this prompt dataset, we introduce a unified evaluation framework that integrates LLM-based Evaluation, Multi-factor Motion evaluation, and Fine-grained Accuracy Evaluation. Our experimental results reveal that while different baseline models demonstrate strengths in areas such as text-to-motion semantic alignment, motion generalizability, and physical quality, most models struggle to achieve strong performance with Fine-grained Accuracy Evaluation. These findings highlight the limitations of existing methods in OOD scenarios and offer practical guidance for the design and evaluation of future production-level text-to-motion models.


翻译:现有文本到动作生成评估大多集中于分布内文本输入和有限的评价标准,这限制了其系统性地评估模型在复杂分布外文本条件下的泛化能力和动作生成能力。为弥补这一不足,我们提出了一个专为分布外文本到动作评估设计的基准测试,该基准包含对14个代表性基线模型的综合分析以及基于评估结果衍生的两个数据集。具体而言,我们构建了一个包含1,025条文本描述的分布外提示数据集。基于此提示数据集,我们引入了一个整合了基于大语言模型的评估、多因素动作评估与细粒度准确度评估的统一评估框架。实验结果表明,虽然不同基线模型在文本到动作语义对齐、动作泛化性和物理质量等方面展现出优势,但多数模型在细粒度准确度评估中难以取得优异表现。这些发现揭示了现有方法在分布外场景下的局限性,并为未来生产级文本到动作模型的设计与评估提供了实践指导。

0
下载
关闭预览

相关内容

如何检测ChatGPT?TUM最新《检测ChatGPT生成文本现状》综述
推荐|上交大推出Texygen:文本生成模型的基准测试平台
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
如何检测ChatGPT?TUM最新《检测ChatGPT生成文本现状》综述
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员