The rapid advancement in visual generation, particularly the emergence of pre-trained text-to-image and text-to-video models, has catalyzed growing interest in training-free video editing research. Mirroring training-free image editing techniques, current approaches preserve original video information through video input inversion and manipulating intermediate features and attention during the inference process to achieve content editing. Although they have demonstrated promising results, the lossy nature of the inversion process poses significant challenges in maintaining unedited regions of the video. Furthermore, feature and attention manipulation during inference can lead to unintended over-editing and face challenges in both local temporal continuity and global content consistency. To address these challenges, this study proposes a score distillation paradigm based on pre-trained text-to-video models, where the original video is iteratively optimized through multiple steps guided by editing gradients provided by score distillation to ultimately obtain the target video. The iterative optimization starting from the original video, combined with content preservation loss, ensures the maintenance of unedited regions in the original video and suppresses over-editing. To further guarantee video content consistency and temporal continuity, we additionally introduce a global consistency auxiliary loss and optical flow prediction-based local editing gradient smoothing. Experiments demonstrate that these strategies effectively address the aforementioned challenges, achieving comparable or superior performance across multiple dimensions including preservation of unedited regions, local temporal continuity, and global content consistency of editing results, compared to state-of-the-art methods.


翻译:视觉生成技术的快速发展,特别是预训练文本到图像和文本到视频模型的出现,推动了对无需训练的视频编辑研究的日益关注。与无需训练的图像编辑技术类似,现有方法通过视频输入反演并在推理过程中操纵中间特征和注意力来实现内容编辑。尽管这些方法已展现出有希望的结果,但反演过程的有损特性对保持视频未编辑区域构成了重大挑战。此外,推理过程中的特征和注意力操纵可能导致意外的过度编辑,并在局部时间连续性和全局内容一致性方面面临困难。为应对这些挑战,本研究提出了一种基于预训练文本到视频模型的分数蒸馏范式,其中原始视频通过分数蒸馏提供的编辑梯度引导进行多步迭代优化,最终获得目标视频。从原始视频开始的迭代优化,结合内容保持损失,确保了原始视频中未编辑区域的保持并抑制了过度编辑。为进一步保证视频内容一致性和时间连续性,我们还引入了全局一致性辅助损失和基于光流预测的局部编辑梯度平滑。实验表明,这些策略有效解决了上述挑战,在未编辑区域保持、局部时间连续性以及编辑结果的全局内容一致性等多个维度上,相比现有先进方法取得了相当或更优的性能。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月4日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员