Existing frameworks for learned video compression suffer from a dilemma between inaccurate temporal alignment and error propagation for motion estimation and compensation (ME/MC). The separate-transform framework employs distinct transforms for intra-frame and inter-frame compression to yield impressive rate-distortion (R-D) performance but causes evident error propagation, while the unified-transform framework eliminates error propagation via shared transforms but is inferior in ME/MC in shared latent domains. To address this limitation, in this paper, we propose a novel unifiedtransform framework with dual-domain progressive temporal alignment and quality-conditioned mixture-of-expert (QCMoE) to enable quality-consistent and error-propagation-free streaming for learned video compression. Specifically, we propose dualdomain progressive temporal alignment for ME/MC that leverages coarse pixel-domain alignment and refined latent-domain alignment to significantly enhance temporal context modeling in a coarse-to-fine fashion. The coarse pixel-domain alignment efficiently handles simple motion patterns with optical flow estimated from a single reference frame, while the refined latent-domain alignment develops a Flow-Guided Deformable Transformer (FGDT) over latents from multiple reference frames to achieve long-term motion refinement (LTMR) for complex motion patterns. Furthermore, we design a QCMoE module for continuous bit-rate adaptation that dynamically assigns different experts to adjust quantization steps per pixel based on target quality and content rather than relies on a single quantization step. QCMoE allows continuous and consistent rate control with appealing R-D performance. Experimental results show that the proposed method achieves competitive R-D performance compared with the state-of-the-arts, while successfully eliminating error propagation.


翻译:现有学习型视频压缩框架在运动估计与补偿(ME/MC)中面临时序对齐不准确与误差传播之间的两难困境。分离变换框架通过为帧内压缩与帧间压缩采用不同的变换实现了优异的率失真(R-D)性能,但会导致明显的误差传播;而统一变换框架通过共享变换消除了误差传播,却在共享潜在域中的ME/MC性能不足。为突破此局限,本文提出一种新颖的统一变换框架,结合双域渐进时序对齐与质量条件化专家混合(QCMoE)模块,以实现学习型视频压缩中质量一致且无误差传播的流式传输。具体而言,我们提出用于ME/MC的双域渐进时序对齐方法,通过粗粒度像素域对齐与细粒度潜在域对齐,以由粗到精的方式显著增强时序上下文建模。粗粒度像素域对齐利用单参考帧估计的光流高效处理简单运动模式,而细粒度潜在域对齐则基于多参考帧的潜在特征构建流引导可变形Transformer(FGDT),实现对复杂运动模式的长期运动细化(LTMR)。此外,我们设计了用于连续码率适配的QCMoE模块,该模块根据目标质量与内容动态分配不同专家以调整逐像素量化步长,而非依赖单一量化步长。QCMoE在保持优异R-D性能的同时实现了连续且一致的码率控制。实验结果表明,所提方法在取得与前沿方法具有竞争力的R-D性能的同时,成功消除了误差传播。

0
下载
关闭预览

相关内容

【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员