多主体视频生成旨在根据文本提示词和多张参考图像合成视频,同时确保每个主体保持自然的尺度与视觉保真度。然而,现有的研究方法面临两大挑战:一是尺度不一致性(scale inconsistency),即主体尺寸的变化会导致生成效果不自然;二是排列敏感性(permutation sensitivity),即参考输入的顺序会导致主体失真。 本文提出了 MoFu,一个旨在同时解决上述挑战的统一框架。针对尺度不一致性,我们引入了尺度感知调制(Scale-Aware Modulation, SMO)。这是一个由大语言模型(LLM)引导的模块,能够从提示词中提取隐式尺度线索并调制特征,从而确保主体尺寸的一致性。为了解决排列敏感性,我们提出了一种简单且有效的傅里叶融合(Fourier Fusion)策略,该策略通过快速傅里叶变换(FFT)处理参考特征的频率信息,从而产生统一的特征表示。此外,我们设计了尺度-排列稳定性损失(Scale-Permutation Stability Loss),以共同促进尺度一致且具有排列不变性的生成过程。为了进一步评估这些挑战,我们建立了一个专门的基准测试,其中包含对主体尺度和参考排列的受控变量。大量实验表明,MoFu 在保持自然尺度、主体保真度和整体视觉质量方面显著优于现有方法。