Unified multimodal models have shown promising results in multimodal content generation and editing but remain largely limited to the image domain. In this work, we present UniVideo, a versatile framework that extends unified modeling to the video domain. UniVideo adopts a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation. This design preserves the MLLM's original text generation capabilities, enables accurate interpretation of complex multimodal instructions, and maintains visual consistency in the generated content. Built on this architecture, UniVideo unifies diverse video generation and editing tasks under a single multimodal instruction paradigm and is jointly trained across them. Extensive experiments demonstrate that UniVideo matches or surpasses state-of-the-art task-specific baselines in text/image-to-video generation, in-context video generation and in-context video editing. Notably, the unified design of UniVideo enables two forms of generalization. First, UniVideo supports task composition, such as combining editing with style transfer, by integrating multiple capabilities within a single instruction. Second, even without explicit training on free-form video editing, UniVideo transfers its editing capability from large-scale image editing data to this setting, handling unseen instructions such as changing the environment or altering materials within a video. Beyond these core capabilities, UniVideo also supports visual-prompt-based video generation, where the MLLM interprets visual prompts and guides the MMDiT during synthesis. To foster future research, we released our model and code.


翻译:统一多模态模型在多模态内容生成与编辑方面已展现出良好前景,但当前研究主要局限于图像领域。本文提出UniVideo,一种将统一建模扩展至视频领域的通用框架。UniVideo采用双流设计:结合用于指令理解的多模态大语言模型(MLLM)与用于视频生成的多模态DiT(MMDiT)。该设计既保留了MLLM原有的文本生成能力,又能精准解析复杂多模态指令,同时确保生成内容的视觉一致性。基于此架构,UniVideo将多样化的视频生成与编辑任务统一于单一多模态指令范式下进行联合训练。大量实验表明,UniVideo在文本/图像到视频生成、上下文视频生成及上下文视频编辑任务中,其性能达到或超越了当前最先进的专用基线模型。值得注意的是,UniVideo的统一设计实现了两种形式的泛化能力:首先,通过单条指令整合多项能力,UniVideo支持任务组合(例如将编辑与风格迁移相结合);其次,即使未经过自由形式视频编辑的显式训练,UniVideo仍能将其在大规模图像编辑数据中习得的编辑能力迁移至该场景,成功处理诸如改变视频环境或替换材质等未见指令。除核心功能外,UniVideo还支持基于视觉提示的视频生成——由MLLM解析视觉提示并在合成过程中引导MMDiT。为促进后续研究,我们已公开模型与代码。

0
下载
关闭预览

相关内容

探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
28+阅读 · 2022年3月16日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
专知会员服务
37+阅读 · 2021年2月20日
计算机视觉方向简介 | 多视角立体视觉MVS
计算机视觉life
15+阅读 · 2019年10月10日
【综述】计算机视觉简介:历史、现状和发展趋势【可下载】
机器学习算法与Python学习
15+阅读 · 2018年9月21日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
计算机视觉方向简介 | 多视角立体视觉MVS
计算机视觉life
15+阅读 · 2019年10月10日
【综述】计算机视觉简介:历史、现状和发展趋势【可下载】
机器学习算法与Python学习
15+阅读 · 2018年9月21日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员