定制化文本到视频生成技术旨在根据用户指定的主体身份运动模式生成高质量视频。然而,现有方法主要局限于对单一概念(主体身份或运动模式)进行个性化定制,难以同时处理具有特定运动模式的多个主体。 为应对这一挑战,我们提出统一框架VideoMage,实现对多主体及其交互运动的联合定制。VideoMage的创新包括:

双模态适配器

采用主体LoRA运动LoRA,分别从用户提供的图像/视频中提取个性化内容 * 通过外观无关的运动学习技术,解耦运动模式与视觉外观特征 1. 时空组合机制

设计新型空间-时间引导方案,精确控制多主体在目标运动模式下的交互行为

实验表明,VideoMage显著优于现有方法,能生成主体身份一致运动交互可控时序连贯的视频。 项目主页https://jasper0314-huang.github.io/videomage-customization

成为VIP会员查看完整内容
12

相关内容

【CVPR2025】具有显式3D建模的世界一致性视频扩散
专知会员服务
11+阅读 · 2025年2月27日
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
500+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
0+阅读 · 15分钟前
(中文)认知战的本体论基础(2026报告)
专知会员服务
5+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
2+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
6+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员