High-resolution video generation, while crucial for digital media and film, is computationally bottlenecked by the quadratic complexity of diffusion models, making practical inference infeasible. To address this, we introduce HiStream, an efficient autoregressive framework that systematically reduces redundancy across three axes: i) Spatial Compression: denoising at low resolution before refining at high resolution with cached features; ii) Temporal Compression: a chunk-by-chunk strategy with a fixed-size anchor cache, ensuring stable inference speed; and iii) Timestep Compression: applying fewer denoising steps to subsequent, cache-conditioned chunks. On 1080p benchmarks, our primary HiStream model (i+ii) achieves state-of-the-art visual quality while demonstrating up to 76.2x faster denoising compared to the Wan2.1 baseline and negligible quality loss. Our faster variant, HiStream+, applies all three optimizations (i+ii+iii), achieving a 107.5x acceleration over the baseline, offering a compelling trade-off between speed and quality, thereby making high-resolution video generation both practical and scalable.


翻译:高分辨率视频生成对于数字媒体和电影至关重要,但扩散模型的二次计算复杂度造成了计算瓶颈,使得实际推理难以实现。为解决此问题,我们提出了HiStream,一种高效的自回归框架,该系统性地在三个维度上减少冗余:i) 空间压缩:先以低分辨率去噪,再利用缓存特征在高分辨率下细化;ii) 时间压缩:采用分块策略并配合固定大小的锚点缓存,确保稳定的推理速度;以及 iii) 时间步压缩:对后续依赖缓存条件的块应用更少的去噪步骤。在1080p基准测试中,我们的主要HiStream模型(i+ii)实现了最先进的视觉质量,同时与Wan2.1基线相比,去噪速度提升高达76.2倍,且质量损失可忽略不计。我们的更快变体HiStream+应用了全部三项优化(i+ii+iii),实现了相对于基线107.5倍的加速,在速度与质量之间提供了极具吸引力的权衡,从而使高分辨率视频生成变得既实用又可扩展。

0
下载
关闭预览

相关内容

【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
2+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 6月24日
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员