多主体视频生成旨在根据文本提示词和多张参考图像合成视频,同时确保每个主体保持自然的尺度与视觉保真度。然而,现有的研究方法面临两大挑战:一是尺度不一致性(scale inconsistency),即主体尺寸的变化会导致生成效果不自然;二是排列敏感性(permutation sensitivity),即参考输入的顺序会导致主体失真。 本文提出了 MoFu,一个旨在同时解决上述挑战的统一框架。针对尺度不一致性,我们引入了尺度感知调制(Scale-Aware Modulation, SMO)。这是一个由大语言模型(LLM)引导的模块,能够从提示词中提取隐式尺度线索并调制特征,从而确保主体尺寸的一致性。为了解决排列敏感性,我们提出了一种简单且有效的傅里叶融合(Fourier Fusion)策略,该策略通过快速傅里叶变换(FFT)处理参考特征的频率信息,从而产生统一的特征表示。此外,我们设计了尺度-排列稳定性损失(Scale-Permutation Stability Loss),以共同促进尺度一致且具有排列不变性的生成过程。为了进一步评估这些挑战,我们建立了一个专门的基准测试,其中包含对主体尺度和参考排列的受控变量。大量实验表明,MoFu 在保持自然尺度、主体保真度和整体视觉质量方面显著优于现有方法。

成为VIP会员查看完整内容
9

相关内容

【NTU博士论文】基于深度学习的图像与视频生成,146页pdf
专知会员服务
11+阅读 · 2021年2月4日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员