Adaptive 1D Video Diffusion Autoencoder - 专知论文

会员服务 ·

0

视频 · 潜在 · 自编码器 · 自适应 · 表示 ·

Adaptive 1D Video Diffusion Autoencoder

翻译：自适应一维视频扩散自编码器

Yao Teng,Minxuan Lin,Xian Liu,Shuai Wang,Xiao Yang,Xihui Liu

Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.

翻译：当前视频生成模型主要依赖于将像素空间视频压缩为潜在表示的视频自编码器。然而，现有视频自编码器存在三个主要局限：(1) 固定速率压缩在简单视频上浪费标记；(2) 不灵活的 CNN 架构无法实现可变长度潜在建模；(3) 确定性解码器难以从压缩潜在表示中恢复恰当的细节。为解决这些问题，我们提出一维扩散视频自编码器（One-DVA），这是一个基于 Transformer 的自适应一维编码与扩散解码框架。编码器采用基于查询的视觉 Transformer 提取时空特征并生成潜在表示，同时通过可变长度丢弃机制动态调整潜在序列长度。解码器是以潜在表示为条件输入的像素空间扩散 Transformer，用于重建视频。通过两阶段训练策略，One-DVA 在相同压缩比下取得了与 3D-CNN VAE 相当的重建指标性能。更重要的是，它支持自适应压缩，因而能够实现更高的压缩比。为更好地支持下游潜在生成任务，我们进一步对 One-DVA 潜在分布进行生成建模正则化，并微调解码器以减轻生成过程引起的伪影。

0

相关内容

视频

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

专知会员服务

6+阅读 · 3月16日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

专知会员服务

17+阅读 · 2024年3月4日

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

专知会员服务

33+阅读 · 2024年1月28日

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现对抗自编码器

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现对抗自编码器

专知

51+阅读 · 2018年3月20日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现自编码器

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现自编码器

专知

45+阅读 · 2018年3月8日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Arxiv

0+阅读 · 3月12日

Latent Diffusion Model without Variational Autoencoder

Arxiv

0+阅读 · 3月2日

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

Arxiv

0+阅读 · 2月26日

A Generative-First Neural Audio Autoencoder

Arxiv

0+阅读 · 2月19日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence

Arxiv

0+阅读 · 2月10日

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Arxiv

0+阅读 · 2月9日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

Laminating Representation Autoencoders for Efficient Diffusion

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

相关VIP内容

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

专知会员服务

6+阅读 · 3月16日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

专知会员服务

17+阅读 · 2024年3月4日

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

专知会员服务

33+阅读 · 2024年1月28日

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现对抗自编码器

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现对抗自编码器

专知

51+阅读 · 2018年3月20日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现自编码器

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现自编码器

专知

45+阅读 · 2018年3月8日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

相关论文

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Arxiv

0+阅读 · 3月12日

Latent Diffusion Model without Variational Autoencoder

Arxiv

0+阅读 · 3月2日

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

Arxiv

0+阅读 · 2月26日

A Generative-First Neural Audio Autoencoder

Arxiv

0+阅读 · 2月19日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence

Arxiv

0+阅读 · 2月10日

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Arxiv

0+阅读 · 2月9日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

Laminating Representation Autoencoders for Efficient Diffusion

Arxiv

0+阅读 · 2月4日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员