Taming Audio VAEs via Target-KL Regularization - 专知论文

会员服务 ·

0

正则化 · 变分自编码 · 潜在 · 表示 · 高维 ·

Taming Audio VAEs via Target-KL Regularization

翻译：通过目标KL正则化驯服音频VAE

Prem Seetharaman,Rithesh Kumar

from arxiv, Accepted at ICASSP 2026 (Barcelona, Spain, 3-8 May 2026). 5 pages, 1 figure, 3 tables

Latent diffusion models have emerged as the dominant paradigm for many generation tasks including audio generation such as text-to-audio, text-to-music and text-to-speech. A key component of latent diffusion is an autoencoder (VAE) that compresses high-dimensional signals into a low frame rate continuous representation that is conducive for downstream prediction. Regularizing these VAEs is challenging, as there is a trade-off between over-regularized (poor output quality) and under-regularized (difficult to predict) latent representations. We propose a framework for studying this trade-off through compression and train Audio VAEs at specific bitrates via target-KL regularization. This allows direct comparison to well-studied discrete neural audio codec models, and the construction of rate-distortion curves for audio VAEs. We evaluate the impact of target-KL regularization on text-to-sound generation and find that sweeping compression rates is helpful in identifying the optimal generation setting.

翻译：潜在扩散模型已成为许多生成任务的主导范式，包括音频生成（如文本到音频、文本到音乐和文本到语音）。潜在扩散的关键组件是自编码器（VAE），它将高维信号压缩为低帧率的连续表示，有利于下游预测。正则化这些VAE具有挑战性，因为过度正则化（输出质量差）与欠正则化（难以预测）的潜在表示之间存在权衡。我们提出了一个框架，通过压缩研究这种权衡，并利用目标KL正则化在特定比特率下训练音频VAE。这使得能够与经过充分研究的离散神经音频编解码模型进行直接比较，并构建音频VAE的率失真曲线。我们评估了目标KL正则化对文本到声音生成的影响，发现扫描压缩率有助于确定最优生成设置。

0

相关内容

正则化

在数学，统计学和计算机科学中，尤其是在机器学习和逆问题中，正则化是添加信息以解决不适定问题或防止过度拟合的过程。正则化适用于不适定的优化问题中的目标函数。

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

专知会员服务

54+阅读 · 2023年12月15日

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

专知会员服务

29+阅读 · 2023年11月11日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

专知会员服务

75+阅读 · 2022年4月6日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

专知会员服务

37+阅读 · 2020年2月27日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

多图对比看懂GAN与VAE的各种变体

多图对比看懂GAN与VAE的各种变体

炼数成金订阅号

47+阅读 · 2017年9月6日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lowrank分解的谱方法和有限差分地震正演模拟

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

低频主动声纳双曲线调频串信号-接收处理联合设计研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

时滞正Markov跳变系统的分布式控制与滤波

国家自然科学基金

0+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

TetherCache: Stabilizing Autoregressive Long-Form Video Generation with Gated Recall and Trusted Alignment

Arxiv

0+阅读 · 6月11日

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

Arxiv

0+阅读 · 6月10日

F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation

Arxiv

0+阅读 · 6月4日

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

Arxiv

0+阅读 · 6月2日

On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation

Arxiv

0+阅读 · 5月25日

Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion

Arxiv

0+阅读 · 5月19日

TADA! Tuning Audio Diffusion Models through Activation Steering

Arxiv

0+阅读 · 5月18日

PoDAR: Power-Disentangled Audio Representation for Generative Modeling

Arxiv

0+阅读 · 5月11日

Stage-adaptive audio diffusion modeling

Arxiv

0+阅读 · 5月6日

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

Arxiv

0+阅读 · 3月27日

VIP会员

文章信息

相关主题

变分自编码

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

专知会员服务

54+阅读 · 2023年12月15日

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

专知会员服务

29+阅读 · 2023年11月11日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

专知会员服务

75+阅读 · 2022年4月6日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

多图对比看懂GAN与VAE的各种变体

多图对比看懂GAN与VAE的各种变体

炼数成金订阅号

47+阅读 · 2017年9月6日

相关论文

TetherCache: Stabilizing Autoregressive Long-Form Video Generation with Gated Recall and Trusted Alignment

Arxiv

0+阅读 · 6月11日

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

Arxiv

0+阅读 · 6月10日

F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation

Arxiv

0+阅读 · 6月4日

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

Arxiv

0+阅读 · 6月2日

On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation

Arxiv

0+阅读 · 5月25日

Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion

Arxiv

0+阅读 · 5月19日

TADA! Tuning Audio Diffusion Models through Activation Steering

Arxiv

0+阅读 · 5月18日

PoDAR: Power-Disentangled Audio Representation for Generative Modeling

Arxiv

0+阅读 · 5月11日

Stage-adaptive audio diffusion modeling

Arxiv

0+阅读 · 5月6日

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

Arxiv

0+阅读 · 3月27日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lowrank分解的谱方法和有限差分地震正演模拟

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

低频主动声纳双曲线调频串信号-接收处理联合设计研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

时滞正Markov跳变系统的分布式控制与滤波

国家自然科学基金

0+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员