Recent work on human animation usually involves audio, pose, or movement maps conditions, thereby achieves vivid animation quality. However, these methods often face practical challenges due to extra control conditions, cumbersome condition injection modules, or limitation to head region driving. Hence, we ask if it is possible to achieve striking half-body human animation while simplifying unnecessary conditions. To this end, we propose a half-body human animation method, dubbed EchoMimicV2, that leverages a novel Audio-Pose Dynamic Harmonization strategy, including Pose Sampling and Audio Diffusion, to enhance half-body details, facial and gestural expressiveness, and meanwhile reduce conditions redundancy. To compensate for the scarcity of half-body data, we utilize Head Partial Attention to seamlessly accommodate headshot data into our training framework, which can be omitted during inference, providing a free lunch for animation. Furthermore, we design the Phase-specific Denoising Loss to guide motion, detail, and low-level quality for animation in specific phases, respectively. Besides, we also present a novel benchmark for evaluating the effectiveness of half-body human animation. Extensive experiments and analyses demonstrate that EchoMimicV2 surpasses existing methods in both quantitative and qualitative evaluations.


翻译:近期的人体动画研究通常涉及音频、姿态或运动图作为条件,从而实现了生动的动画质量。然而,这些方法常因额外的控制条件、繁琐的条件注入模块或局限于头部区域驱动而面临实际挑战。因此,我们提出疑问:是否可能在简化不必要条件的同时,实现引人注目的半身人体动画?为此,我们提出了一种半身人体动画方法,命名为EchoMimicV2。该方法利用一种新颖的音频-姿态动态协调策略(包括姿态采样和音频扩散)来增强半身细节、面部与手势表现力,同时减少条件冗余。为弥补半身数据的稀缺性,我们利用头部局部注意力机制,将头部特写数据无缝整合到我们的训练框架中,该机制在推理阶段可被省略,为动画生成提供了"免费午餐"。此外,我们设计了阶段特异性去噪损失,分别在特定阶段指导动画的运动、细节和低层质量。同时,我们还提出了一个用于评估半身人体动画效果的新基准。大量实验与分析表明,EchoMimicV2在定量和定性评估中均超越了现有方法。

0
下载
关闭预览

相关内容

【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合
专知会员服务
10+阅读 · 2025年4月3日
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
专知会员服务
18+阅读 · 2024年11月22日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
首篇《人类视频生成》全面综述:挑战、方法和见解
专知会员服务
34+阅读 · 2024年7月14日
计算机视觉方向简介 | 人体姿态估计
计算机视觉life
28+阅读 · 2019年6月6日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
大语言模型平台在国防情报应用中的对比
专知会员服务
3+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
4+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
《系统簇式多域作战规划范畴论框架》
专知会员服务
10+阅读 · 4月20日
相关资讯
计算机视觉方向简介 | 人体姿态估计
计算机视觉life
28+阅读 · 2019年6月6日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员