Pose-guided video generation refers to controlling the motion of subjects in generated video through a sequence of poses. It enables precise control over subject motion and has important applications in animation. However, current pose-guided video generation methods are limited to accepting only human poses as input, thus generalizing poorly to pose of other subjects. To address this issue, we propose PoseAnything, the first universal pose-guided video generation framework capable of handling both human and non-human characters, supporting arbitrary skeletal inputs. To enhance consistency preservation during motion, we introduce Part-aware Temporal Coherence Module, which divides the subject into different parts, establishes part correspondences, and computes cross-attention between corresponding parts across frames to achieve fine-grained part-level consistency. Additionally, we propose Subject and Camera Motion Decoupled CFG, a novel guidance strategy that, for the first time, enables independent camera movement control in pose-guided video generation, by separately injecting subject and camera motion control information into the positive and negative anchors of CFG. Furthermore, we present XPose, a high-quality public dataset containing 50,000 non-human pose-video pairs, along with an automated pipeline for annotation and filtering. Extensive experiments demonstrate that Pose-Anything significantly outperforms state-of-the-art methods in both effectiveness and generalization.


翻译:姿态引导视频生成指通过一系列姿态序列控制生成视频中主体的运动。该方法能实现对主体运动的精确控制,在动画制作等领域具有重要应用价值。然而,现有姿态引导视频生成方法仅能接受人体姿态作为输入,对其他主体的姿态泛化能力较差。为解决此问题,我们提出了PoseAnything——首个能够同时处理人类与非人类角色、支持任意骨骼输入的通用姿态引导视频生成框架。为增强运动过程中的一致性保持,我们引入了部件感知时序一致性模块,该模块将主体划分为不同部件,建立部件对应关系,并通过跨帧对应部件间的交叉注意力计算实现细粒度的部件级一致性。此外,我们提出主体与相机运动解耦的CFG引导策略,通过将主体运动控制信息与相机运动控制信息分别注入CFG的正负锚点,首次在姿态引导视频生成中实现了相机运动的独立控制。进一步,我们构建了XPose高质量公开数据集,包含50,000个非人类姿态-视频对,并提供自动化的标注与筛选流程。大量实验表明,PoseAnything在生成效果与泛化能力上均显著优于现有最优方法。

0
下载
关闭预览

相关内容

【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
ECCV2020 | SMAP: 单步多人绝对三维姿态估计
学术头条
10+阅读 · 2020年8月9日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
18+阅读 · 2024年12月27日
A Survey of Large Language Models
Arxiv
500+阅读 · 2023年3月31日
Arxiv
182+阅读 · 2023年3月24日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
2+阅读 · 今天14:47
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
1+阅读 · 今天14:06
前馈式三维场景建模
专知会员服务
1+阅读 · 今天14:03
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
3+阅读 · 今天3:12
相关VIP内容
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员