Wepresent Alice v1, a 14-billion parameter open-source video generation model that achieves state-of-the-art quality through consistency distillation with score regularization (rCM). Contrary to conventional distillation-which trades quality for speed-we demonstrate that rCM-based distillation can exceed teacher model quality. We attribute this to three mechanisms: (1) the score regularization term acts as a mode-seeking objective that concentrates probability mass on high-quality outputs rather than covering the full teacher distribution, (2) our targeted synthetic data pipeline with hard example mining provides training signal specifically for failure modes (physics, hands, faces) that the teacher handles inconsistently, and (3) consistency enforcement acts as implicit regularization, eliminating "lucky path" dependence on specific noise samples. Alice v1 generates 5-second 720p videos at 24fps in 4 denoising steps (~8 seconds on H100), a 7x speedup over the 50-step teacher while improving VBench score from 84.0 (Wan2.2) to 91.2. This surpasses both the teacher and closed-source systems including Veo3 (~90) and Sora2 (~88) on automated benchmarks, with competitive results in human preference studies. We release all model weights, training code, synthetic data pipelines, and evaluation scripts to advance open research in video generation.


翻译:我们提出Alice v1,一个拥有140亿参数的开源视频生成模型,通过带分数正则化的一致性蒸馏(rCM)实现了最先进的质量。与传统蒸馏(以质量换取速度)相反,我们证明了基于rCM的蒸馏能够超越教师模型的质量。我们将此归因于三种机制:(1)分数正则化项作为一种模式寻找目标,将概率质量集中在高质量输出上,而非覆盖完整的教师分布;(2)我们针对性的合成数据管道结合难例挖掘,专门为教师处理不一致的失败模式(物理、手部、面部)提供训练信号;(3)一致性强制作为隐式正则化,消除了对特定噪声样本的“幸运路径”依赖。Alice v1可在4步去噪中生成5秒720p、24fps的视频(H100上约8秒),相比50步的教师模型实现7倍加速,同时将VBench分数从84.0(Wan2.2)提升至91.2。在自动化基准测试上,这超越了教师模型和闭源系统(包括Veo3约90和Sora2约88),并在人类偏好研究中取得具有竞争力的结果。我们将发布所有模型权重、训练代码、合成数据管道和评估脚本,以推动视频生成领域的开放研究。

0
下载
关闭预览

相关内容

探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
【AAAI2024】EPSD:高效模型压缩中的早期剪枝与自我蒸馏
专知会员服务
24+阅读 · 2024年2月5日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员