Learning-based speech compression has achieved promising low-bitrate performance, but many neural speech codecs still describe quantized latents with preset-rate discrete symbols or apply entropy coding only after symbol generation. Such designs decouple representation learning from probability modeling, limiting their ability to exploit the non-uniform usage and temporal dependencies of learned speech latents. In this paper, we benchmark neural speech compression from a rate--distortion perspective and further investigate entropy-constrained coding for low-bitrate speech compression. We first formulate a unified learning-based speech coding pipeline and provide a benchmark-style analysis of recent neural speech codecs, showing that explicit probability modeling remains underexplored in learned speech compression. We then propose ECC, an Entropy-Constrained Codec that combines scalar quantization with a learned entropy model. ECC integrates hyperprior-based side information, channel-wise context modeling, latent residual prediction, and lightweight temporal modeling to estimate latent likelihoods for rate estimation during training and arithmetic coding during inference. To further improve low-bitrate efficiency, ECC introduces entropy skip, which omits highly predictable residual symbols using decoder-available scale estimates without transmitting additional skip masks. Extensive experiments show that ECC achieves a favorable low-bitrate rate--distortion trade-off over conventional and neural codec baselines, reducing BD-rate by 39.9% on ViSQOL and 76.3% on PESQ on average over two widely-used test sets. Ablation and diagnostic studies further validate the effectiveness of entropy modeling. Project Page: https://avery-xu.github.io/ECC-demo/


翻译:基于学习的语音压缩在低码率性能上取得了显著进展,但许多神经语音编解码器仍以预设速率的离散符号描述量化潜变量,或仅在符号生成后应用熵编码。此类设计将表示学习与概率建模分离,限制了利用学习到的语音潜变量的非均匀分布与时间依赖性的能力。本文从率失真视角对神经语音压缩进行基准测试,并进一步研究面向低码率语音压缩的熵约束编码。我们首先构建统一的基于学习的语音编码流水线,并对近期神经语音编解码器展开基准式分析,揭示显式概率建模在基于学习的语音压缩中仍未被充分探索。随后提出ECC(熵约束编解码器),该模型将标量量化与学习的熵模型相结合。ECC整合基于超先验的边信息、通道级上下文建模、潜变量残差预测以及轻量级时间建模,在训练期间估计潜变量似然以计算码率,并在推理期间支持算术编码。为提升低码率效率,ECC引入熵跳跃机制:利用解码端可用的尺度估计省略高度可预测的残差符号,而无需传输额外跳跃掩码。大量实验表明,ECC在低码率下实现了优于传统及神经编解码器基线的率失真权衡,在两个广泛使用的测试集上,相比基线平均降低ViSQOL的BD-rate达39.9%、PESQ的BD-rate达76.3%。消融与诊断研究进一步验证了熵建模的有效性。项目页面:https://avery-xu.github.io/ECC-demo/

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
【博士论文】神经语言模型的参数效率,199页pdf
专知会员服务
33+阅读 · 2024年3月13日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
20+阅读 · 2023年3月28日
最新《神经数据压缩导论》综述
专知会员服务
39+阅读 · 2022年7月19日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
概览CVPR 2018神经网络图像压缩领域进展
论智
13+阅读 · 2018年6月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 6月8日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员