Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence - 专知论文

会员服务 ·

0

视频 · 一致 · 时序 · 时序一致性 · 潜在 ·

Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence

翻译：Free-GVC：一种无需训练的极致生成式视频压缩方法，具备时序一致性

Xiaoyue Ling,Chuqin Zhou,Chunyi Li,Yunuo Chen,Yuan Tian,Guo Lu,Wenjun Zhang

Building on recent advances in video generation, generative video compression has emerged as a new paradigm for achieving visually pleasing reconstructions. However, existing methods exhibit limited exploitation of temporal correlations, causing noticeable flicker and degraded temporal coherence at ultra-low bitrates. In this paper, we propose Free-GVC, a training-free generative video compression framework that reformulates video coding as latent trajectory compression guided by a video diffusion prior. Our method operates at the group-of-pictures (GOP) level, encoding video segments into a compact latent space and progressively compressing them along the diffusion trajectory. To ensure perceptually consistent reconstruction across GOPs, we introduce an Adaptive Quality Control module that dynamically constructs an online rate-perception surrogate model to predict the optimal diffusion step for each GOP. In addition, an Inter-GOP Alignment module establishes frame overlap and performs latent fusion between adjacent groups, thereby mitigating flicker and enhancing temporal coherence. Experiments show that Free-GVC achieves an average of 93.29% BD-Rate reduction in DISTS over the latest neural codec DCVC-RT, and a user study further confirms its superior perceptual quality and temporal coherence at ultra-low bitrates.

翻译：基于视频生成领域的最新进展，生成式视频压缩已成为实现视觉愉悦重建的新范式。然而，现有方法对时序相关性的利用有限，导致在超低码率下出现明显的闪烁现象和时序一致性退化。本文提出Free-GVC，一种无需训练的生成式视频压缩框架，该框架将视频编码重新定义为由视频扩散先验引导的潜在轨迹压缩。我们的方法在图像组（GOP）级别运行，将视频片段编码到紧凑的潜在空间中，并沿着扩散轨迹逐步压缩它们。为确保跨GOP的感知一致性重建，我们引入了一个自适应质量控制模块，该模块动态构建在线码率-感知代理模型，以预测每个GOP的最佳扩散步数。此外，一个GOP间对齐模块建立了相邻组之间的帧重叠并执行潜在融合，从而减轻闪烁并增强时序一致性。实验表明，Free-GVC在DISTS指标上相比最新的神经编解码器DCVC-RT平均实现了93.29%的BD-Rate节省，用户研究进一步证实了其在超低码率下卓越的感知质量和时序一致性。

0

相关内容

视频

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

专知会员服务

6+阅读 · 3月16日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

专知会员服务

11+阅读 · 2025年3月6日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

视频处理与压缩技术

专知会员服务

15+阅读 · 2021年3月26日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

专知会员服务

12+阅读 · 2019年12月8日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

基于GAN的极限图像压缩框架

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于随机相位调制的自然场景压缩成像方法与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

Arxiv

0+阅读 · 3月14日

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Arxiv

0+阅读 · 3月12日

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Arxiv

0+阅读 · 2月23日

Tuning-free Visual Effect Transfer across Videos

Arxiv

0+阅读 · 2月18日

EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

Arxiv

0+阅读 · 2月16日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

Adaptive 1D Video Diffusion Autoencoder

Arxiv

0+阅读 · 2月4日

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

Arxiv

0+阅读 · 2月2日

GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation

Arxiv

0+阅读 · 2月2日

Generative Video Compression: Towards 0.01% Compression Rate for Video Transmission

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

时序一致性

最新内容

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

1+阅读 · 今天5:21

《决策模型比较研究》

《决策模型比较研究》

专知会员服务

5+阅读 · 今天5:16

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

专知会员服务

2+阅读 · 今天4:37

《美军水下战与海床战概述及本地实施》

《美军水下战与海床战概述及本地实施》

专知会员服务

2+阅读 · 今天4:30

面向未来冲突推进陆军情报体制改革

面向未来冲突推进陆军情报体制改革

专知会员服务

2+阅读 · 今天4:12

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

专知会员服务

3+阅读 · 今天2:54

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

7+阅读 · 7月24日

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

6+阅读 · 7月24日

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

4+阅读 · 7月24日

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

2+阅读 · 7月24日

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

2+阅读 · 7月24日

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

3+阅读 · 7月24日

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

5+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

5+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

8+阅读 · 7月23日

相关VIP内容

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

专知会员服务

6+阅读 · 3月16日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

专知会员服务

11+阅读 · 2025年3月6日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

视频处理与压缩技术

专知会员服务

15+阅读 · 2021年3月26日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

专知会员服务

12+阅读 · 2019年12月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《决策模型比较研究》

《美军水下战与海床战概述及本地实施》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

基于GAN的极限图像压缩框架

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

Arxiv

0+阅读 · 3月14日

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Arxiv

0+阅读 · 3月12日

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Arxiv

0+阅读 · 2月23日

Tuning-free Visual Effect Transfer across Videos

Arxiv

0+阅读 · 2月18日

EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

Arxiv

0+阅读 · 2月16日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

Adaptive 1D Video Diffusion Autoencoder

Arxiv

0+阅读 · 2月4日

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

Arxiv

0+阅读 · 2月2日

GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation

Arxiv

0+阅读 · 2月2日

Generative Video Compression: Towards 0.01% Compression Rate for Video Transmission

Arxiv

0+阅读 · 2月1日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于随机相位调制的自然场景压缩成像方法与实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员