Recent advances in diffusion-based text-to-video models, particularly those built on the diffusion transformer architecture, have achieved remarkable progress in generating high-quality and temporally coherent videos. However, transferring complex motions between videos remains challenging. In this work, we present MotionAdapter, a content-aware motion transfer framework that enables robust and semantically aligned motion transfer within DiT-based T2V models. Our key insight is that effective motion transfer requires \romannumeral1) explicit disentanglement of motion from appearance and \romannumeral 2) adaptive customization of motion to target content. MotionAdapter first isolates motion by analyzing cross-frame attention within 3D full-attention modules to extract attention-derived motion fields. To bridge the semantic gap between reference and target videos, we further introduce a DINO-guided motion customization module that rearranges and refines motion fields based on content correspondences. The customized motion field is then used to guide the DiT denoising process, ensuring that the synthesized video inherits the reference motion while preserving target appearance and semantics. Extensive experiments demonstrate that MotionAdapter outperforms state-of-the-art methods in both qualitative and quantitative evaluations. Moreover, MotionAdapter naturally supports complex motion transfer and motion editing tasks such as zooming.


翻译:基于扩散的文本到视频模型,特别是基于扩散Transformer架构构建的模型,在生成高质量且时序连贯的视频方面取得了显著进展。然而,在视频之间迁移复杂运动仍然具有挑战性。本文提出MotionAdapter,一个内容感知的运动迁移框架,能够在基于DiT的T2V模型中实现鲁棒且语义对齐的运动迁移。我们的核心见解是,有效的运动迁移需要:\romannumeral1) 将运动从外观中显式解耦;\romannumeral2) 根据目标内容对运动进行自适应定制。MotionAdapter首先通过分析3D全注意力模块中的跨帧注意力来提取注意力导出的运动场,从而分离运动。为了弥合参考视频与目标视频之间的语义鸿沟,我们进一步引入了一个DINO引导的运动定制模块,该模块基于内容对应关系对运动场进行重排和精炼。定制后的运动场随后用于引导DiT的去噪过程,确保合成视频继承参考运动的同时,保留目标外观和语义。大量实验表明,MotionAdapter在定性和定量评估中均优于现有最先进方法。此外,MotionAdapter天然支持复杂运动迁移及缩放等运动编辑任务。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员