SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Guibin Chen,Dixuan Lin,Jiangping Yang,Youqiang Zhang,Zhengcong Fei,Debang Li,Sheng Chen,Chaofeng Ao,Nuo Pang,Yiming Wang,Yikun Dou,Zheng Chen,Mingyuan Fan,Tuanhui Li,Mingshan Chang,Hao Zhang,Xiaopeng Sun,Jingtao Xu,Yuqiang Xie,Jiahua Wang,Zhiheng Xu,Weiming Xiong,Yuzhe Jin,Baoxuan Gu,Binjie Mao,Yunjie Yu,Jujie He,Yuhao Feng,Shiwen Tu,Chaojie Wang,Rui Yan,Wei Shen,Jingchen Wu,Peng Zhao,Xuanyue Zhong,Zhuangzhuang Liu,Kaifei Wang,Fuxiang Zhang,Weikai Xu,Wenyan Liu,Binglu Zhang,Yu Shen,Tianhui Xiong,Bin Peng,Liang Zeng,Xuchen Song,Haoxiang Guo,Peiyu Wang,Max W. Y. Lam,Chien-Hung Liu,Yahui Zhou

SkyReels V4 is a unified multi modal video foundation model for joint video audio generation, inpainting, and editing. The model adopts a dual stream Multimodal Diffusion Transformer (MMDiT) architecture, where one branch synthesizes video and the other generates temporally aligned audio, while sharing a powerful text encoder based on the Multimodal Large Language Models (MLLM). SkyReels V4 accepts rich multi modal instructions, including text, images, video clips, masks, and audio references. By combining the MLLMs multi modal instruction following capability with in context learning in the video branch MMDiT, the model can inject fine grained visual guidance under complex conditioning, while the audio branch MMDiT simultaneously leverages audio references to guide sound generation. On the video side, we adopt a channel concatenation formulation that unifies a wide range of inpainting style tasks, such as image to video, video extension, and video editing under a single interface, and naturally extends to vision referenced inpainting and editing via multi modal prompts. SkyReels V4 supports up to 1080p resolution, 32 FPS, and 15 second duration, enabling high fidelity, multi shot, cinema level video generation with synchronized audio. To make such high resolution, long-duration generation computationally feasible, we introduce an efficiency strategy: Joint generation of low resolution full sequences and high-resolution keyframes, followed by dedicated super-resolution and frame interpolation models. To our knowledge, SkyReels V4 is the first video foundation model that simultaneously supports multi-modal input, joint video audio generation, and a unified treatment of generation, inpainting, and editing, while maintaining strong efficiency and quality at cinematic resolutions and durations.

翻译：SkyReels V4 是一个统一的、用于联合视频音频生成、修复与编辑的多模态视频基础模型。该模型采用双流多模态扩散Transformer（MMDiT）架构，其中一个分支合成视频，另一个分支生成时间对齐的音频，同时共享一个基于多模态大语言模型（MLLM）的强大文本编码器。SkyReels V4 接受丰富的多模态指令，包括文本、图像、视频片段、掩码和音频参考。通过将 MLLM 的多模态指令跟随能力与视频分支 MMDiT 的上下文学习相结合，该模型能够在复杂条件下注入细粒度的视觉引导，同时音频分支 MMDiT 利用音频参考来引导声音生成。在视频方面，我们采用通道拼接的公式化方法，将图像到视频、视频扩展和视频编辑等多种修复风格任务统一在单一接口下，并通过多模态提示自然地扩展到基于视觉参考的修复和编辑。SkyReels V4 支持高达 1080p 分辨率、32 FPS 和 15 秒时长，能够生成具有同步音频的高保真、多镜头、影院级视频。为了使如此高分辨率、长时长的生成在计算上可行，我们引入了一种效率策略：联合生成低分辨率完整序列和高分辨率关键帧，然后使用专用的超分辨率和帧插值模型进行处理。据我们所知，SkyReels V4 是首个同时支持多模态输入、联合视频音频生成，并对生成、修复和编辑进行统一处理，同时在影院级分辨率和时长下保持高效与高质量的视频基础模型。