OmniLottie is a versatile framework that generates high quality vector animations from multi-modal instructions. For flexible motion and visual content control, we focus on Lottie, a light weight JSON formatting for both shapes and animation behaviors representation. However, the raw Lottie JSON files contain extensive invariant structural metadata and formatting tokens, posing significant challenges for learning vector animation generation. Therefore, we introduce a well designed Lottie tokenizer that transforms JSON files into structured sequences of commands and parameters representing shapes, animation functions and control parameters. Such tokenizer enables us to build OmniLottie upon pretrained vision language models to follow multi-modal interleaved instructions and generate high quality vector animations. To further advance research in vector animation generation, we curate MMLottie-2M, a large scale dataset of professionally designed vector animations paired with textual and visual annotations. With extensive experiments, we validate that OmniLottie can produce vivid and semantically aligned vector animations that adhere closely to multi modal human instructions.


翻译:OmniLottie是一个多功能框架,能够根据多模态指令生成高质量的矢量动画。为了实现灵活的运动和视觉内容控制,我们聚焦于Lottie——一种用于表示形状和动画行为的轻量级JSON格式。然而,原始的Lottie JSON文件包含大量不变的结构化元数据和格式化令牌,这给学习矢量动画生成带来了重大挑战。因此,我们引入了一个精心设计的Lottie令牌化器,它能将JSON文件转换为表示形状、动画函数和控制参数的命令与参数的结构化序列。该令牌化器使我们能够在预训练的视觉语言模型基础上构建OmniLottie,以遵循多模态交错指令并生成高质量的矢量动画。为了进一步推动矢量动画生成的研究,我们策划了MMLottie-2M——一个大规模的专业设计矢量动画数据集,并配有文本和视觉标注。通过大量实验,我们验证了OmniLottie能够生成生动且语义对齐的矢量动画,这些动画紧密遵循多模态的人类指令。

0
下载
关闭预览

相关内容

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
35+阅读 · 2023年3月26日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
0+阅读 · 今天14:47
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
0+阅读 · 今天14:06
前馈式三维场景建模
专知会员服务
0+阅读 · 今天14:03
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
2+阅读 · 今天3:12
相关VIP内容
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
35+阅读 · 2023年3月26日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员