We present a perceptually-driven video compression framework integrating implicit neural representations (INRs) and pre-trained video diffusion models to address the extremely low bitrate regime (<0.05 bpp). Our approach exploits the complementary strengths of INRs, which provide a compact video representation, and diffusion models, which offer rich generative priors learned from large-scale datasets. The INR-based conditioning replaces traditional intra-coded keyframes with bit-efficient neural representations trained to estimate latent features and guide the diffusion process. Our joint optimization of INR weights and parameter-efficient adapters for diffusion models allows the model to learn reliable conditioning signals while encoding video-specific information with minimal parameter overhead. Our experiments on UVG, MCL-JCV, and JVET Class-B benchmarks demonstrate substantial improvements in perceptual metrics (LPIPS, DISTS, and FID) at extremely low bitrates, including improvements on BD-LPIPS up to 0.214 and BD-FID up to 91.14 relative to HEVC, while also outperforming VVC and previous strong state-of-the-art neural and INR-only video codecs. Moreover, our analysis shows that INR-conditioned diffusion-based video compression first composes the scene layout and object identities before refining textural accuracy, exposing the semantic-to-visual hierarchy that enables perceptually faithful compression at extremely low bitrates.


翻译:我们提出了一种感知驱动的视频压缩框架,通过集成隐式神经表示(INR)与预训练视频扩散模型,专门应对极低码率(<0.05 bpp)场景。该方法充分利用了INR(提供紧凑视频表示)与扩散模型(提供从大规模数据集中习得的丰富生成先验)的互补优势。基于INR的条件约束机制取代了传统帧内编码的关键帧,转而采用比特高效的神经表示来估计潜在特征并引导扩散过程。通过对INR权重与扩散模型参数高效适配器的联合优化,模型能够在以最小参数开销编码视频特定信息的同时,学习到可靠的条件约束信号。我们在UVG、MCL-JCV和JVET Class-B基准上的实验表明:在极低码率条件下,该方法在感知指标(LPIPS、DISTS和FID)上取得了显著提升——相较于HEVC,BD-LPIPS最高降低0.214,BD-FID最高降低91.14,同时全面超越VVC及此前最优的神经/INR视频编解码器。此外,我们的分析揭示:基于INR条件约束的扩散视频压缩会先构建场景布局与物体身份,再逐步优化纹理精度,这种从语义到视觉的层级结构正是实现极低码率下感知保真压缩的关键。

0
下载
关闭预览

相关内容

【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
深度学习视频超分辨率综述
专知会员服务
14+阅读 · 2025年6月5日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
20+阅读 · 2023年3月28日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
专知会员服务
15+阅读 · 2021年3月26日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
基于GAN的极限图像压缩框架
论智
12+阅读 · 2018年4月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 20分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 37分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
深度学习视频超分辨率综述
专知会员服务
14+阅读 · 2025年6月5日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
20+阅读 · 2023年3月28日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
专知会员服务
15+阅读 · 2021年3月26日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员