生成逼真图像长期以来是计算机视觉与图形学领域的重要研究方向。生成对抗网络(GANs)的出现进一步推动了生成模型在自然图像创作中的普及。尽管在生成稳定的静态人脸图像方面已取得显著进展,但由于时间维度引入了额外的复杂性,将这些能力扩展到视频领域仍面临巨大挑战。鉴于人类主要通过连续的视觉体验来感知世界,推进基于视频的人脸生成至关重要。与此同时,利用换脸技术已能将人脸无缝替换到无关的视频素材中,使得伪造的面部内容愈发难以被人眼察觉,从而引发了关于虚假信息和技术滥用的严重关切。 此外,尽管谈话头像(Talking-head)生成受益于相对受限的结构,但涉及任意对象和场景的通用视频生成则是一个更具挑战性的课题。此类视频在空间构图、物体类别、运动模式和场景动力学方面表现出极高的多样性。高度分散的数据分布导致了训练的不稳定性和生成质量的下降。幸运的是,基于扩散的生成模型的出现打破了这一瓶颈。通过将生成过程建模为迭代去噪,这些模型在更广泛的领域内展现出了合成高质量视频的强大能力。然而,目前的扩散视频模型在可扩展性方面仍面临限制,特别是在生成长序列和实现高空间分辨率方面,这指明了需要进一步探索的关键领域。
本论文提出了四项核心贡献,旨在从结构、真实性、长度和分辨率四个维度推进视频生成技术: 第一,我们解决了动态谈话人像生成问题。 与静态图像相比,谈话人脸视频必须满足三个标准:(1)高保真度,即每一帧都达到照片级真实;(2)跨时间的身份一致性;(3)具有自然运动的生动动态。在缺乏显式 3D 先验的情况下,维持时序身份一致性十分困难。为此,我们提出了 ReliTalk,这是一个用于可重光照、音频驱动的谈话人像生成的创新框架。该框架从隐式学习的音频驱动法线和外观中分解出反射率,并利用 3D 面部先验来预测详细的法线贴图。这些法线引导光照估计和反射率分解。此外,我们利用模拟多光照条件下的身份一致性损失(Identity-consistent loss)来细化 3D 感知表示。 第二,随着谈话人像变得愈发逼真,其被恶意使用的风险也随之增加。 新型伪造方法的快速涌现导致现有检测器在应对未知攻击时泛化能力较差。为解决这一问题,我们研究了**少样本伪造检测(Few-shot forgery detection)**问题。我们(1)基于伪造类型的覆盖范围分析构建了一个综合基准测试;(2)提出了引导式对抗插值(Guided Adversarial Interpolation, GAI)。GAI 在教师网络的引导下,通过将少数类伪造伪影对抗性地插值到多数类中,利用伪造类型之间的可迁移特征来提升泛化性能。 第三,得益于大规模视频数据集和扩散模型的进步,基于文本条件的逼真通用视频生成已成为可能。 我们专注于通用视频生成中的两个挑战:长视频生成和多文本条件控制。我们首先分析了初始噪声在视频扩散模型中的作用,并引入了 FreeNoise。这是一种免微调(Tuning-free)范式,在保持内容一致性的同时提升了生成的长度和质量。FreeNoise 通过重排噪声输入以强制执行长程时序相干性,并基于窗口融合执行时间注意力机制。此外,我们提出了一种新型运动注入策略,实现了多文本条件生成。值得注意的是,与以往方法高达 255% 的额外开销相比,我们的方法仅需 17% 的推理时间即可达到同等质量。 第四,我们进一步探索了可扩展的文本到视频生成。 由于缺乏高分辨率数据和计算资源受限,目前的视觉扩散模型通常在有限的分辨率下进行训练,这阻碍了其在高分辨率下生成高保真图像或视频的能力。近期研究探索了免微调策略,以挖掘预训练模型在高分辨率视觉生成中尚未开发的潜力。然而,这些方法仍容易产生带有重复模式的低质量视觉内容。关键障碍在于,当模型生成的视觉内容超过其训练分辨率时,高频信息不可避免地增加,导致误差积累并衍生出不理想的重复模式。为了应对这一挑战,我们提出了 FreeScale,这是一种通过尺度融合实现高分辨率视觉生成的免微调推理范式。具体而言,FreeScale 处理来自不同感受尺度的信息,并通过提取所需的频率分量进行融合。值得注意的是,与此前性能最优的方法相比,FreeScale 首次实现了 8K 分辨率的文本到图像生成。