Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k - 专知论文

会员服务 ·

0

视频 · 视频生成模型 · Sora · 生成模型 · 视频生成 ·

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

翻译：Open-Sora 2.0：以20万美元成本训练商业级视频生成模型

Zangwei Zheng,Xiangyu Peng,Yuxuan Lou,Chenhui Shen,Tom Young,Xinying Guo,Binluo Wang,Hang Xu,Hongxin Liu,Mingyan Jiang,Wenjun Li,Yuhui Wang,Anbang Ye,Gang Ren,Qianran Ma,Wanying Liang,Xiang Lian,Xiwen Wu,Yuting Zhong,Zhuangyan Li,Chaoyu Gong,Guojun Lei,Leijun Cheng,Limin Zhang,Minghao Li,Ruijie Zhang,Silan Hu,Shijie Huang,Xiaokang Wang,Yuanheng Zhao,Yuqi Wang,Ziang Wei,Yang You

Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.

翻译：过去一年中，视频生成模型取得了显著进展。AI视频质量持续提升，但代价是模型规模增大、数据量增加以及对训练算力的需求更高。本报告介绍了Open-Sora 2.0——一个仅以20万美元成本训练的商业级视频生成模型。通过该模型，我们证明训练顶级视频生成模型的成本是高度可控的。我们详细阐述了实现这一效率突破的所有技术，包括数据筛选、模型架构、训练策略与系统优化。根据人工评估结果与VBench评分，Open-Sora 2.0的性能可与全球领先的视频生成模型相媲美，包括开源的HunyuanVideo与闭源的Runway Gen-3 Alpha。通过将Open-Sora 2.0完全开源，我们旨在普及先进视频生成技术的使用，促进内容创作领域更广泛的创新与创造力。所有资源已公开于：https://github.com/hpcaitech/Open-Sora。

0

相关内容

视频

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

2024AIGC视频生成：Sora引领走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索-甲子光年

2024AIGC视频生成：Sora引领走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索-甲子光年

专知会员服务

44+阅读 · 2024年3月6日

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

专知会员服务

63+阅读 · 2024年2月28日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

162+阅读 · 2024年2月26日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

53+阅读 · 2024年2月23日

文生视频模型Sora面世，AI生视频技术持续革新

文生视频模型Sora面世，AI生视频技术持续革新

专知会员服务

65+阅读 · 2024年2月20日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

OpenAI发布文生视频模型Sora，系统报告

OpenAI发布文生视频模型Sora，系统报告

专知会员服务

81+阅读 · 2024年2月19日

OpenAI Sora视频生成模型技术报告中英全文

OpenAI Sora视频生成模型技术报告中英全文

专知会员服务

115+阅读 · 2024年2月17日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

年薪20万和50万的计算机视觉算法工程师，到底有什么区别？

年薪20万和50万的计算机视觉算法工程师，到底有什么区别？

计算机视觉life

17+阅读 · 2018年12月17日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Arxiv

0+阅读 · 4月27日

Seedance 2.0: Advancing Video Generation for World Complexity

Arxiv

0+阅读 · 4月15日

Lyra 2.0: Explorable Generative 3D Worlds

Arxiv

0+阅读 · 4月14日

Rewriting Video: Text-Driven Reauthoring of Video Footage

Arxiv

0+阅读 · 4月6日

Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2

Arxiv

0+阅读 · 3月19日

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Arxiv

0+阅读 · 3月16日

Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

Arxiv

0+阅读 · 3月14日

Helios: Real Real-Time Long Video Generation Model

Arxiv

0+阅读 · 3月4日

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Arxiv

0+阅读 · 3月3日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

视频生成模型

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

2024AIGC视频生成：Sora引领走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索-甲子光年

2024AIGC视频生成：Sora引领走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索-甲子光年

专知会员服务

44+阅读 · 2024年3月6日

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

专知会员服务

63+阅读 · 2024年2月28日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

162+阅读 · 2024年2月26日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

53+阅读 · 2024年2月23日

文生视频模型Sora面世，AI生视频技术持续革新

文生视频模型Sora面世，AI生视频技术持续革新

专知会员服务

65+阅读 · 2024年2月20日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

OpenAI发布文生视频模型Sora，系统报告

OpenAI发布文生视频模型Sora，系统报告

专知会员服务

81+阅读 · 2024年2月19日

OpenAI Sora视频生成模型技术报告中英全文

OpenAI Sora视频生成模型技术报告中英全文

专知会员服务

115+阅读 · 2024年2月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

年薪20万和50万的计算机视觉算法工程师，到底有什么区别？

年薪20万和50万的计算机视觉算法工程师，到底有什么区别？

计算机视觉life

17+阅读 · 2018年12月17日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

相关论文

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Arxiv

0+阅读 · 4月27日

Seedance 2.0: Advancing Video Generation for World Complexity

Arxiv

0+阅读 · 4月15日

Lyra 2.0: Explorable Generative 3D Worlds

Arxiv

0+阅读 · 4月14日

Rewriting Video: Text-Driven Reauthoring of Video Footage

Arxiv

0+阅读 · 4月6日

Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2

Arxiv

0+阅读 · 3月19日

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Arxiv

0+阅读 · 3月16日

Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

Arxiv

0+阅读 · 3月14日

Helios: Real Real-Time Long Video Generation Model

Arxiv

0+阅读 · 3月4日

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Arxiv

0+阅读 · 3月3日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

相关基金

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员