EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding - 专知论文

会员服务 ·

0

相位 · 编解码 · 编解码器 · 解码 · 鲁棒 ·

EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding

翻译：EuleroDec：一种用于高效鲁棒音频编码的复数值RVQ-VAE

Luca Cerovaz,Michele Mancusi,Emanuele Rodolà

from arxiv, Accepted at ICASSP 2026

Audio codecs power discrete music generative modelling, music streaming and immersive media by shrinking PCM audio to bandwidth-friendly bit-rates. Recent works have gravitated towards processing in the spectral domain; however, spectrogram-domains typically struggle with phase modeling which is naturally complex-valued. Most frequency-domain neural codecs either disregard phase information or encode it as two separate real-valued channels, limiting spatial fidelity. This entails the need to introduce adversarial discriminators at the expense of convergence speed and training stability to compensate for the inadequate representation power of the audio signal. In this work we introduce an end-to-end complex-valued RVQ-VAE audio codec that preserves magnitude-phase coupling across the entire analysis-quantization-synthesis pipeline and removes adversarial discriminators and diffusion post-filters. Without GANs or diffusion we match or surpass much longer-trained baselines in-domain and reach SOTA out-of-domain performance. Compared to standard baselines that train for hundreds of thousands of steps, our model reducing training budget by an order of magnitude is markedly more compute-efficient while preserving high perceptual quality.

翻译：音频编解码器通过将PCM音频压缩至带宽友好的比特率，为离散音乐生成建模、音乐流媒体和沉浸式媒体提供支持。近期研究倾向于在频域进行处理；然而，谱图域通常难以处理相位建模，而相位本质上是复数值的。大多数频域神经编解码器要么忽略相位信息，要么将其编码为两个独立的实数值通道，从而限制了空间保真度。这导致需要引入对抗性判别器以补偿音频信号表征能力的不足，但会牺牲收敛速度和训练稳定性。本文提出一种端到端的复数值RVQ-VAE音频编解码器，其在完整的分析-量化-合成流程中保持幅度-相位耦合，并移除了对抗性判别器和扩散后滤波器。在不使用GAN或扩散模型的情况下，我们在域内性能上匹配或超越了训练时长更长的基线模型，并在域外性能上达到了SOTA水平。与需要训练数十万步的标准基线相比，我们的模型将训练成本降低了一个数量级，在保持高感知质量的同时显著提升了计算效率。

0

相关内容

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

25+阅读 · 2023年9月7日

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

专知会员服务

26+阅读 · 2023年8月14日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

专知会员服务

21+阅读 · 2022年4月21日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

多波束卫星通信中基于压缩感知的预编码设计与干扰消除技术

国家自然科学基金

1+阅读 · 2017年12月31日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

A Generative-First Neural Audio Autoencoder

Arxiv

0+阅读 · 2月17日

S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization

Arxiv

0+阅读 · 2月16日

Eureka-Audio: Triggering Audio Intelligence in Compact Language Models

Arxiv

0+阅读 · 2月15日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

Arxiv

0+阅读 · 2月4日

CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate

Arxiv

0+阅读 · 2月3日

High-Fidelity Generative Audio Compression at 0.275kbps

Arxiv

0+阅读 · 1月31日

RVCBench: Benchmarking the Robustness of Voice Cloning Across Modern Audio Generation Models

Arxiv

0+阅读 · 1月31日

VCNAC: A Variable-Channel Neural Audio Codec for Mono, Stereo, and Surround Sound

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

2+阅读 · 今天15:00

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

2+阅读 · 今天14:54

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

1+阅读 · 今天14:49

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

1+阅读 · 今天14:44

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

2+阅读 · 今天14:03

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

6+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

4+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

6+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

4+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

4+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

12+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

13+阅读 · 4月19日

相关VIP内容

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

25+阅读 · 2023年9月7日

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

专知会员服务

26+阅读 · 2023年8月14日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

专知会员服务

21+阅读 · 2022年4月21日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

相关论文

A Generative-First Neural Audio Autoencoder

Arxiv

0+阅读 · 2月17日

S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization

Arxiv

0+阅读 · 2月16日

Eureka-Audio: Triggering Audio Intelligence in Compact Language Models

Arxiv

0+阅读 · 2月15日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

Arxiv

0+阅读 · 2月4日

CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate

Arxiv

0+阅读 · 2月3日

High-Fidelity Generative Audio Compression at 0.275kbps

Arxiv

0+阅读 · 1月31日

RVCBench: Benchmarking the Robustness of Voice Cloning Across Modern Audio Generation Models

Arxiv

0+阅读 · 1月31日

VCNAC: A Variable-Channel Neural Audio Codec for Mono, Stereo, and Surround Sound

Arxiv

0+阅读 · 1月21日

相关基金

多波束卫星通信中基于压缩感知的预编码设计与干扰消除技术

国家自然科学基金

1+阅读 · 2017年12月31日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员