多主体视频生成旨在根据文本提示词和多张参考图像合成视频,同时确保每个主体保持自然的尺度与视觉保真度。然而,现有的研究方法面临两大挑战:一是尺度不一致性(scale inconsistency),即主体尺寸的变化会导致生成效果不自然;二是排列敏感性(permutation sensitivity),即参考输入的顺序会导致主体失真。 本文提出了 MoFu,一个旨在同时解决上述挑战的统一框架。针对尺度不一致性,我们引入了尺度感知调制(Scale-Aware Modulation, SMO)。这是一个由大语言模型(LLM)引导的模块,能够从提示词中提取隐式尺度线索并调制特征,从而确保主体尺寸的一致性。为了解决排列敏感性,我们提出了一种简单且有效的傅里叶融合(Fourier Fusion)策略,该策略通过快速傅里叶变换(FFT)处理参考特征的频率信息,从而产生统一的特征表示。此外,我们设计了尺度-排列稳定性损失(Scale-Permutation Stability Loss),以共同促进尺度一致且具有排列不变性的生成过程。为了进一步评估这些挑战,我们建立了一个专门的基准测试,其中包含对主体尺度和参考排列的受控变量。大量实验表明,MoFu 在保持自然尺度、主体保真度和整体视觉质量方面显著优于现有方法。

成为VIP会员查看完整内容
5

相关内容

【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【AAAI2025】用于高保真3D重建的多视图条件扩散模型
专知会员服务
19+阅读 · 2024年12月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员