Video generation has seen remarkable progress thanks to advancements in generative deep learning. However, generating long sequences remains a significant challenge. Generated videos should not only display coherent and continuous movement but also meaningful movement in successions of scenes. Models such as GANs, VAEs, and Diffusion Networks have been used for generating short video sequences, typically up to 16 frames. In this paper, we first propose a new type of video generator by enabling adversarial-based unconditional video generators with a variational encoder, akin to a VAE-GAN hybrid structure. The proposed model, as in other video deep learning-based processing frameworks, incorporates two processing branches, one for content and another for movement. However, existing models struggle with the temporal scaling of the generated videos. Classical approaches often result in degraded video quality when attempting to increase the generated video length, especially for significantly long sequences. To overcome this limitation, our research study extends the initially proposed VAE-GAN video generation model by employing a novel, memory-efficient approach to generate long videos composed of hundreds or thousands of frames ensuring their temporal continuity, consistency and dynamics. Our approach leverages a Markov chain framework with a recall mechanism, where each state represents a short-length VAE-GAN video generator. This setup enables the sequential connection of generated video sub-sequences, maintaining temporal dependencies and resulting in meaningful long video sequences.


翻译:得益于生成式深度学习的进步,视频生成已取得显著进展。然而,生成长序列视频仍然是一个重大挑战。生成的视频不仅需要呈现连贯连续的运动,还应在连续场景中展现有意义的动态。诸如GAN、VAE和扩散网络等模型已被用于生成短视频序列,通常不超过16帧。本文首先提出一种新型视频生成器,通过为基于对抗的无条件视频生成器配备变分编码器来实现,类似于VAE-GAN混合结构。与其它基于深度学习的视频处理框架类似,所提模型包含两个处理分支:一个用于内容生成,另一个用于运动生成。然而,现有模型在生成视频的时间尺度扩展方面存在困难。传统方法在尝试增加生成视频长度时往往导致视频质量下降,特别是对于极长序列。为克服这一限制,本研究通过采用一种新颖的内存高效方法扩展了最初提出的VAE-GAN视频生成模型,能够生成由数百或数千帧组成的长视频,并确保其时间连续性、一致性和动态性。我们的方法利用带有记忆机制的马尔可夫链框架,其中每个状态代表一个短长度的VAE-GAN视频生成器。这种设置实现了生成视频子序列的序列化连接,保持了时间依赖性,从而产生有意义的长视频序列。

0
下载
关闭预览

相关内容

【Hugging Face】开源视频生成模型的发展现状,31页ppt
专知会员服务
18+阅读 · 2025年8月30日
视频生成中的物理认知演进探究:一项综述
专知会员服务
16+阅读 · 2025年3月30日
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
首篇《人类视频生成》全面综述:挑战、方法和见解
专知会员服务
34+阅读 · 2024年7月14日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
208+阅读 · 2019年9月30日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
必读!生成对抗网络GAN论文TOP 10
GAN生成式对抗网络
58+阅读 · 2019年3月20日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
VAE、GAN、Info-GAN:全解深度学习三大生成模型
数据派THU
20+阅读 · 2017年9月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月16日
Arxiv
0+阅读 · 1月13日
VIP会员
相关VIP内容
【Hugging Face】开源视频生成模型的发展现状,31页ppt
专知会员服务
18+阅读 · 2025年8月30日
视频生成中的物理认知演进探究:一项综述
专知会员服务
16+阅读 · 2025年3月30日
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
首篇《人类视频生成》全面综述:挑战、方法和见解
专知会员服务
34+阅读 · 2024年7月14日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
208+阅读 · 2019年9月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员