EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation - 专知论文

会员服务 ·

0

协调策略 · 表现力 · 冗余 · 特异 · 去噪 ·

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

翻译：EchoMimicV2：迈向引人注目、简化且半身人体动画

Rang Meng,Xingyu Zhang,Yuming Li,Chenguang Ma

from arxiv, CVPR2025

Recent work on human animation usually involves audio, pose, or movement maps conditions, thereby achieves vivid animation quality. However, these methods often face practical challenges due to extra control conditions, cumbersome condition injection modules, or limitation to head region driving. Hence, we ask if it is possible to achieve striking half-body human animation while simplifying unnecessary conditions. To this end, we propose a half-body human animation method, dubbed EchoMimicV2, that leverages a novel Audio-Pose Dynamic Harmonization strategy, including Pose Sampling and Audio Diffusion, to enhance half-body details, facial and gestural expressiveness, and meanwhile reduce conditions redundancy. To compensate for the scarcity of half-body data, we utilize Head Partial Attention to seamlessly accommodate headshot data into our training framework, which can be omitted during inference, providing a free lunch for animation. Furthermore, we design the Phase-specific Denoising Loss to guide motion, detail, and low-level quality for animation in specific phases, respectively. Besides, we also present a novel benchmark for evaluating the effectiveness of half-body human animation. Extensive experiments and analyses demonstrate that EchoMimicV2 surpasses existing methods in both quantitative and qualitative evaluations.

翻译：近期的人体动画研究通常涉及音频、姿态或运动图作为条件，从而实现了生动的动画质量。然而，这些方法常因额外的控制条件、繁琐的条件注入模块或局限于头部区域驱动而面临实际挑战。因此，我们提出疑问：是否可能在简化不必要条件的同时，实现引人注目的半身人体动画？为此，我们提出了一种半身人体动画方法，命名为EchoMimicV2。该方法利用一种新颖的音频-姿态动态协调策略（包括姿态采样和音频扩散）来增强半身细节、面部与手势表现力，同时减少条件冗余。为弥补半身数据的稀缺性，我们利用头部局部注意力机制，将头部特写数据无缝整合到我们的训练框架中，该机制在推理阶段可被省略，为动画生成提供了"免费午餐"。此外，我们设计了阶段特异性去噪损失，分别在特定阶段指导动画的运动、细节和低层质量。同时，我们还提出了一个用于评估半身人体动画效果的新基准。大量实验与分析表明，EchoMimicV2在定量和定性评估中均超越了现有方法。

0

相关内容

协调策略

【CMU博士论文】交互驱动的人体动作估计与生成

【CMU博士论文】交互驱动的人体动作估计与生成

专知会员服务

18+阅读 · 2025年9月17日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CVPR2025】MixerMDM：可学习的人体运动扩散模型组合

【CVPR2025】MixerMDM：可学习的人体运动扩散模型组合

专知会员服务

10+阅读 · 2025年4月3日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

专知会员服务

18+阅读 · 2024年11月22日

多模态数字人建模、合成与驱动综述

多模态数字人建模、合成与驱动综述

专知会员服务

30+阅读 · 2024年9月19日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

专知会员服务

29+阅读 · 2023年1月7日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

17+阅读 · 2019年1月30日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

【紫冬分享】基于人体骨架的行为识别

【紫冬分享】基于人体骨架的行为识别

中国科学院自动化研究所

20+阅读 · 2019年1月18日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

基于单目RGB/RGBD相机的身体运动和面部运动同步捕获方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Arxiv

0+阅读 · 3月10日

PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

Arxiv

0+阅读 · 3月5日

SimpliHuMoN: Simplifying Human Motion Prediction

Arxiv

0+阅读 · 3月4日

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Arxiv

0+阅读 · 3月4日

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Arxiv

0+阅读 · 2月22日

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars

Arxiv

0+阅读 · 2月12日

MVAnimate: Enhancing Character Animation with Multi-View Optimization

Arxiv

0+阅读 · 2月9日

IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation

Arxiv

0+阅读 · 2月7日

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

2+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

4+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

3+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

4+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

【CMU博士论文】交互驱动的人体动作估计与生成

【CMU博士论文】交互驱动的人体动作估计与生成

专知会员服务

18+阅读 · 2025年9月17日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CVPR2025】MixerMDM：可学习的人体运动扩散模型组合

【CVPR2025】MixerMDM：可学习的人体运动扩散模型组合

专知会员服务

10+阅读 · 2025年4月3日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

专知会员服务

18+阅读 · 2024年11月22日

多模态数字人建模、合成与驱动综述

多模态数字人建模、合成与驱动综述

专知会员服务

30+阅读 · 2024年9月19日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

专知会员服务

29+阅读 · 2023年1月7日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

17+阅读 · 2019年1月30日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

【紫冬分享】基于人体骨架的行为识别

【紫冬分享】基于人体骨架的行为识别

中国科学院自动化研究所

20+阅读 · 2019年1月18日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

相关论文

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Arxiv

0+阅读 · 3月10日

PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

Arxiv

0+阅读 · 3月5日

SimpliHuMoN: Simplifying Human Motion Prediction

Arxiv

0+阅读 · 3月4日

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Arxiv

0+阅读 · 3月4日

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Arxiv

0+阅读 · 2月22日

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars

Arxiv

0+阅读 · 2月12日

MVAnimate: Enhancing Character Animation with Multi-View Optimization

Arxiv

0+阅读 · 2月9日

IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation

Arxiv

0+阅读 · 2月7日

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

Arxiv

0+阅读 · 2月2日

相关基金

基于单目RGB/RGBD相机的身体运动和面部运动同步捕获方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员