Learning-based video compression has recently achieved competitive rate-distortion performance compared to conventional video codecs. However, most existing methods rely on non-invertible analysis-synthesis transforms, with reconstruction quality subject to both quantization and transform approximation errors. This limitation becomes particularly restrictive at higher quality points, where quantization errors are small and transform-induced distortion dominates. To address this, we propose InnVC, an Invertible neural network based Video Codec for wide-range and high-fidelity compression. The core idea is to preserve an invertible main transform path prior to quantization, while injecting content-adaptive context through a compact implicit conditioning field. This decouples strongly correlated video content from harder-to-model fine details, allowing different components to specialize in complementary reconstruction tasks for more efficient compression. To further improve compressibility, we introduce a scheduled masking strategy that progressively concentrates informative content into fewer latent channels for more effective entropy coding. Experiments on the UVG and MCL-JCV benchmarks show that InnVC achieves strong compression performance over a broad quality range, being particularly effective in the high-quality regime, yielding BD-rate reductions of 21.66% in PSNR and 46.06% in MS-SSIM relative to x265 on UVG. To the best of our knowledge, InnVC is the first neural video codec covers operating poins from low bitrate to high fidelity within a single architecture scale, spanning more than 20 dB in PSNR.


翻译:基于学习的视频压缩近期在率失真性能上已与传统视频编解码器相当。然而,现有方法大多采用非可逆的分析-合成变换,其重建质量同时受量化误差与变换近似误差影响。这种局限性在高质量点尤为突出——当量化误差较小时,变换引起的失真占据主导地位。为解决该问题,我们提出InnVC——一种基于可逆神经网络的视频编解码器,适用于宽范围高保真压缩。核心思想是在量化前保留可逆主变换路径,同时通过紧凑的隐式条件场注入内容自适应上下文。该设计将强相关视频内容与难以建模的精细细节解耦,使不同组件专注于互补重建任务,从而提升压缩效率。为进一步增强可压缩性,我们引入调度掩蔽策略,逐步将信息内容集中到更少的潜通道中,以实现更高效的熵编码。在UVG与MCL-JCV基准上的实验表明,InnVC在宽质量范围内均表现出强劲压缩性能,尤其在高保真区间效果显著——相较于x265,在UVG上实现PSNR BD率降低21.66%,MS-SSIM BD率降低46.06%。据我们所知,InnVC是首个在单一架构尺度下覆盖从低比特率到高保真操作点(PSNR跨度超过20 dB)的神经视频编解码器。

0
下载
关闭预览

相关内容

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
《Transformer压缩》综述
专知会员服务
49+阅读 · 2024年2月14日
最新《神经数据压缩导论》综述
专知会员服务
39+阅读 · 2022年7月19日
专知会员服务
15+阅读 · 2021年3月26日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
概览CVPR 2018神经网络图像压缩领域进展
论智
13+阅读 · 2018年6月13日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月8日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
概览CVPR 2018神经网络图像压缩领域进展
论智
13+阅读 · 2018年6月13日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员