Despite recent advances, long-sequence video generation frameworks still suffer from significant limitations: poor assistive capability, suboptimal visual quality, and limited expressiveness. To mitigate these limitations, we propose MAViS, a multi-agent collaborative framework designed to assist in long-sequence video storytelling by efficiently translating ideas into visual narratives. MAViS orchestrates specialized agents across multiple stages, including script writing, shot designing, character modeling, keyframe generation, video animation, and audio generation. In each stage, agents operate under the 3E Principle -- Explore, Examine, and Enhance -- to ensure the completeness of intermediate outputs. Considering the capability limitations of current generative models, we propose the Script Writing Guidelines to optimize compatibility between scripts and generative tools. Experimental results demonstrate that MAViS achieves state-of-the-art performance in assistive capability, visual quality, and video expressiveness. Its modular framework further enables scalability with diverse generative models and tools. With just a brief idea description, MAViS enables users to rapidly explore diverse visual storytelling and creative directions for sequential video generation by efficiently producing high-quality, complete long-sequence videos. To the best of our knowledge, MAViS is the only framework that provides multimodal design output -- videos with narratives and background music.


翻译:尽管近期取得了进展,但长序列视频生成框架仍存在显著局限性:辅助能力不足、视觉质量欠佳以及表现力有限。为缓解这些局限,我们提出MAViS,一种多智能体协作框架,旨在通过高效地将创意转化为视觉叙事来辅助长序列视频叙事。MAViS在多个阶段协调专业智能体,包括剧本撰写、镜头设计、角色建模、关键帧生成、视频动画和音频生成。在每个阶段,智能体遵循"3E原则"——探索、审查与增强——以确保中间输出的完整性。考虑到当前生成模型的能力限制,我们提出剧本撰写指导原则,以优化剧本与生成工具之间的兼容性。实验结果表明,MAViS在辅助能力、视觉质量和视频表现力方面均达到最先进水平。其模块化框架进一步实现了与多样化生成模型及工具的可扩展性。仅需简短创意描述,MAViS即可通过高效生成高质量、完整的长序列视频,使用户能够快速探索多样化的视觉叙事与序列视频生成的创意方向。据我们所知,MAViS是当前唯一能提供多模态设计输出——即包含叙事与背景音乐的完整视频——的框架。

0
下载
关闭预览

相关内容

探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员