CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos - 专知论文

会员服务 ·

0

视频 · 人体运动 · 协同 · 耦合 · 泛化 ·

CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos

翻译：CoMoVi：三维人体运动与真实感视频的协同生成

Chengfeng Zhao,Jiazhi Shu,Yubo Zhao,Tianyu Huang,Jiahao Lu,Zekai Gu,Chengwei Ren,Zhiyang Dou,Qing Shuai,Yuan Liu

from arxiv, Project Page: https://igl-hkust.github.io/CoMoVi/

In this paper, we find that the generation of 3D human motions and 2D human videos is intrinsically coupled. 3D motions provide the structural prior for plausibility and consistency in videos, while pre-trained video models offer strong generalization capabilities for motions. Based on this, we present CoMoVi, a co-generative framework that generates 3D human motions and videos synchronously within a single diffusion denoising loop. However, since the 3D human motions and the 2D human-centric videos have a modality gap between each other, we propose to project the 3D human motion into an effective 2D human motion representation that effectively aligns with the 2D videos. Then, we design a dual-branch diffusion model to couple human motion and the video generation process with mutual feature interaction and 3D-2D cross attentions. To train and evaluate our model, we curate CoMoVi-Dataset, a large-scale real-world human video dataset with text and motion annotations, covering diverse and challenging human motions. Extensive experiments demonstrate that our method generates high-quality 3D human motion with a better generalization ability and that our method can generate high-quality human-centric videos without external motion references.

翻译：本文发现三维人体运动与二维人体视频的生成本质上是耦合的：三维运动为视频的合理性与一致性提供结构先验，而预训练视频模型则为运动赋予强大的泛化能力。基于此，我们提出CoMoVi——一种在单一扩散去噪循环中同步生成三维人体运动与视频的协同生成框架。然而，由于三维人体运动与二维人体视频之间存在模态差异，我们提出将三维人体运动映射为与二维视频有效对齐的二维人体运动表征。随后，我们设计了双分支扩散模型，通过互特征交互与三维-二维交叉注意力机制将人体运动与视频生成过程耦合。为训练与评估模型，我们构建了CoMoVi-Dataset——一个包含文本与运动标注的大规模真实世界人体视频数据集，覆盖多样且具挑战性的人体运动。大量实验表明，本方法能生成具有更强泛化能力的高质量三维人体运动，且无需外部运动参考即可生成高质量人体视频。

0

相关内容

视频

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

17+阅读 · 4月30日

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【CMU博士论文】交互驱动的人体动作估计与生成

【CMU博士论文】交互驱动的人体动作估计与生成

专知会员服务

18+阅读 · 2025年9月17日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

From Visual Synthesis to Interactive Worlds: Toward Production-Ready 3D Asset Generation

Arxiv

0+阅读 · 4月26日

OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction

Arxiv

0+阅读 · 4月23日

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Arxiv

0+阅读 · 4月22日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Arxiv

0+阅读 · 4月13日

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Arxiv

0+阅读 · 4月9日

Pulp Motion: Framing-aware multimodal camera and human motion generation

Arxiv

0+阅读 · 4月1日

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Arxiv

0+阅读 · 3月24日

UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

Arxiv

0+阅读 · 3月23日

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

3+阅读 · 今天14:49

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

17+阅读 · 4月30日

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【CMU博士论文】交互驱动的人体动作估计与生成

【CMU博士论文】交互驱动的人体动作估计与生成

专知会员服务

18+阅读 · 2025年9月17日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【伯克利博士论文】揭示任何视频背后的四维世界

【伯克利博士论文】揭示任何视频背后的四维世界

专知会员服务

26+阅读 · 2024年11月24日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

相关论文

From Visual Synthesis to Interactive Worlds: Toward Production-Ready 3D Asset Generation

Arxiv

0+阅读 · 4月26日

OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction

Arxiv

0+阅读 · 4月23日

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Arxiv

0+阅读 · 4月22日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Arxiv

0+阅读 · 4月13日

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Arxiv

0+阅读 · 4月9日

Pulp Motion: Framing-aware multimodal camera and human motion generation

Arxiv

0+阅读 · 4月1日

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Arxiv

0+阅读 · 3月24日

UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

Arxiv

0+阅读 · 3月23日

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Arxiv

0+阅读 · 3月20日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员