While recent autoregressive video diffusion models achieve remarkable streaming quality, they remain confined to low resolutions (e.g., 480P), leaving efficient, scalable, real-time high-resolution video generation a fundamental open challenge. To bridge this gap, we present Ultra Flash, a cascaded streaming framework capable of real-time high-resolution video generation. Ultra Flash achieves ~30 FPS at 1K resolution and ~18 FPS at 2K resolution on a single GPU through three key contributions: (1) an architecture-preserving T2V-to-TV2V super-resolution training paradigm coupled with an AIGC-oriented data degradation pipeline that effectively preserves the generative capability of the base model, enabling enhanced high-resolution detail when cascaded after mainstream low-resolution generative models; (2) a causal streaming latent upsampler paired with a high-resolution decoder, which enhances spatiotemporal coherence while enabling efficient latent spatial scaling and precise high-resolution decoding with negligible computational overhead; and (3) a cascade high-resolution streaming video generation optimization scheme that first performs hybrid-reward-enhanced sparse causalization and single-step distillation of the super-resolution model, then introduces cascaded streaming self-forcing preference optimization with dynamic cache management, jointly enhancing overall coherence, improving quality, and enabling real-time high-resolution streaming video generation. Extensive experiments demonstrate that Ultra Flash reliably produces ultra-high-resolution streaming video while maintaining state-of-the-art visual quality and superior efficiency. Project Page: https://xin1u.github.io/UltraFlash/


翻译:尽管近期自回归视频扩散模型在流式生成质量上表现卓越,但其分辨率仍局限于低画质(如480P),这使得高效、可扩展的实时高分辨率视频生成成为基础性开放挑战。为填补这一空白,我们提出超闪——一种级联式流式框架,能够实现实时高分辨率视频生成。在单GPU上,超闪在1K分辨率下达到约30 FPS,在2K分辨率下达到约18 FPS。其核心贡献包括三方面:(1)一种保持架构的T2V到TV2V超分辨率训练范式,结合面向AIGC的数据退化流程,有效保留基础模型的生成能力,从而在级联于主流低分辨率生成模型后增强高分辨率细节;(2)一种因果流式潜在上采样器与高分辨率解码器的组合,在增强时空一致性的同时,实现高效的潜在空间缩放和精确的高分辨率解码,且计算开销可忽略;(3)一种级联高分辨率流式视频生成优化方案:首先对超分辨率模型进行混合奖励增强的稀疏因果化与单步蒸馏,随后引入带动态缓存管理的级联流式自强制偏好优化,共同提升整体连贯性、改善画质,并实现实时高分辨率流式视频生成。大量实验表明,超闪在保持顶尖视觉质量与卓越效率的同时,能够可靠生成超高清流式视频。项目主页:https://xin1u.github.io/UltraFlash/

0
下载
关闭预览

相关内容

深度学习视频超分辨率综述
专知会员服务
14+阅读 · 2025年6月5日
深度学习视频超分辨率技术概述
专知会员服务
38+阅读 · 2022年7月18日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
超分辨率相关资源大列表
极市平台
24+阅读 · 2019年5月11日
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
计算机视觉life
16+阅读 · 2019年4月25日
低清视频也能快速转高清:超分辨率算法TecoGAN
机器之心
13+阅读 · 2019年4月16日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 56分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关资讯
超分辨率相关资源大列表
极市平台
24+阅读 · 2019年5月11日
CVPR 2019 | 神奇的超分辨率算法DPSR:应对图像模糊降质
计算机视觉life
16+阅读 · 2019年4月25日
低清视频也能快速转高清:超分辨率算法TecoGAN
机器之心
13+阅读 · 2019年4月16日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员