Low frame rates in neural audio codecs are attractive for autoregressive speech synthesis, where the generation cost scales linearly with the sequence length. Recent work has demonstrated that codecs can operate at 12.5 Hz and below, but the mechanisms underlying low frame rate degradation remain insufficiently understood. We investigate these mechanisms through a controlled frame rate ablation. We reproduce a quality cliff at 6.25 Hz reported in previous works and evaluate candidate explanations: phonemic collisions and codebook saturation, neither of which shows evidence of a fundamental barrier. The cliff is instead caused by suboptimal training configuration: fixed clip duration during training yields too few tokens at low frame rates, starving the decoder of inter-token context. Once corrected, WER degrades smoothly with phonemic load down to 3.1 Hz and 1.6 Hz, suggesting the inference-time efficiency gains of low frame rate codecs are more accessible than previously assumed.


翻译:低帧率神经音频编解码器对自回归语音合成具有吸引力,其生成成本随序列长度线性增长。近期研究表明,编解码器可在12.5 Hz及以下的帧率运行,但低帧率退化背后的潜在机制仍未被充分理解。我们通过受控帧率消融实验探究这些机制,复现了先前研究报道的6.25 Hz质量突变现象,并评估了两种候选解释:音素碰撞与码本饱和——两者均未显示存在根本性障碍。该突变实由次优训练配置引发:训练过程中固定音频片段时长导致低帧率下生成的令牌数过少,使得解码器缺乏跨令牌上下文信息。修正该问题后,词错误率(WER)随音素负载增加而平滑退化,直至降至3.1 Hz与1.6 Hz,表明低帧率编解码器的推理效率增益比先前假设更易实现。

0
下载
关闭预览

相关内容

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧
专知会员服务
13+阅读 · 2024年11月27日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
20+阅读 · 2023年3月28日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
专知会员服务
14+阅读 · 2021年10月9日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
learn to see in the dark-低照度图像增强算法
计算机视觉life
16+阅读 · 2019年1月14日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】深入理解自编码器(附代码实现)
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员