Amid the surge in generic text-to-video generation, the field of personalized human video generation has witnessed notable advancements, primarily concentrated on single-person scenarios. However, to our knowledge, the domain of two-person interactions, particularly in the context of martial arts combat, remains uncharted. We identify a significant gap: existing models for single-person dancing generation prove insufficient for capturing the subtleties and complexities of two engaged fighters, resulting in challenges such as identity confusion, anomalous limbs, and action mismatches. To address this, we introduce a pioneering new task, Personalized Martial Arts Combat Video Generation. Our approach, MagicFight, is specifically crafted to overcome these hurdles. Given this pioneering task, we face a lack of appropriate datasets. Thus, we generate a bespoke dataset using the game physics engine Unity, meticulously crafting a multitude of 3D characters, martial arts moves, and scenes designed to represent the diversity of combat. MagicFight refines and adapts existing models and strategies to generate high-fidelity two-person combat videos that maintain individual identities and ensure seamless, coherent action sequences, thereby laying the groundwork for future innovations in the realm of interactive video content creation. Website: https://MingfuYAN.github.io/MagicFight/ Dataset: https://huggingface.co/datasets/MingfuYAN/KungFu-Fiesta


翻译:在通用文本到视频生成技术蓬勃发展的背景下,个性化人物视频生成领域已取得显著进展,但其研究主要集中于单人物场景。然而,据我们所知,涉及双人交互的领域,尤其是在武术格斗情境下,仍属空白。我们发现一个显著差距:现有的单人物舞蹈生成模型难以捕捉两名格斗者交互的微妙性与复杂性,导致身份混淆、肢体异常及动作不匹配等挑战。为解决此问题,我们引入了一项开创性的新任务:个性化武术格斗视频生成。为此设计的MagicFight方法,专门用于克服这些障碍。鉴于该任务的开拓性,我们面临缺乏合适数据集的问题。因此,我们利用游戏物理引擎Unity生成了一个定制数据集,精心制作了大量旨在体现格斗多样性的3D角色、武术动作与场景。MagicFight通过改进和适配现有模型与策略,能够生成高保真度的双人格斗视频,在保持个体身份的同时确保动作序列的流畅性与连贯性,从而为交互式视频内容创作领域的未来创新奠定基础。项目网站:https://MingfuYAN.github.io/MagicFight/ 数据集:https://huggingface.co/datasets/MingfuYAN/KungFu-Fiesta

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
19+阅读 · 2021年2月12日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
19+阅读 · 2021年2月12日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员