Neural speech codecs have become the discrete interface between raw audio and speech language models, yet they remain optimized primarily for acoustic reconstruction fidelity, which leaves emotion-relevant cues vulnerable to being discarded during quantization, limiting the affective capacity of downstream models. We trace this degradation to two mechanisms: reconstruction-driven bit allocation under limited bitrate and cross-stream leakage in concatenation-based codecs, where acoustic gradients can overwrite nominally emotion-reserved dimensions. We propose AffectCodec, an emotion-preserving neural speech codec built on Block-Diagonal Residual Finite Scalar Quantization (BD-RFSQ). By imposing block-diagonal input and output projections over emotion and acoustic subspaces, BD-RFSQ transforms bit allocation from implicit and loss-driven to explicit and structurally guaranteed, while still preserving a flat token interface for downstream speech language models. AffectCodec further combines this structurally constrained quantizer with multi-granularity emotion conditioning and multi-rate training, enabling robust affect preservation at low bitrates. Experiments across multiple emotional speech benchmarks show that AffectCodec substantially improves emotion preservation, especially in the low-bitrate regime, while maintaining competitive acoustic quality and intelligibility. These results suggest that structurally protected quantization is an effective principle for preserving emotion-relevant information and may provide a general route toward attribute-aware neural speech compression.


翻译:神经语音编解码器已成为原始音频与语音语言模型之间的离散接口,但其优化目标仍主要聚焦于声学重建保真度,导致情感相关线索在量化过程中易被丢弃,从而限制了下游模型的情感能力。我们追溯这一退化趋势至两种机制:有限比特率下基于重建驱动的比特分配,以及基于拼接的编解码器中的跨流泄漏——其中声学梯度可能覆盖标称的情感保留维度。我们提出AffectCodec,一种构建于块对角残差有限标量量化(BD-RFSQ)之上的情感保持神经语音编解码器。通过在情感子空间和声学子空间上施加块对角输入输出投影,BD-RFSQ将比特分配从隐式且受损失驱动的方式转变为显式且结构有保障的方式,同时仍为下游语音语言模型保留平坦令牌接口。AffectCodec进一步将这种结构约束量化器与多粒度情感条件控制及多码率训练相结合,从而在低比特率下实现稳健的情感保持。跨多个情感语音基准的实验表明,AffectCodec显著提升了情感保持性能,尤其在低比特率场景下,同时保持了具有竞争力的声学质量和可懂度。这些结果表明,结构受保护的量化是保留情感相关信息的一种有效原则,并可能为面向属性的神经语音压缩提供通用路径。

0
下载
关闭预览

相关内容

【ICCV2025】基于奖励引导解码的多模态大语言模型控制
专知会员服务
10+阅读 · 2025年8月19日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
54+阅读 · 2022年8月31日
专知会员服务
32+阅读 · 2021年1月9日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】深入理解自编码器(附代码实现)
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【ICCV2025】基于奖励引导解码的多模态大语言模型控制
专知会员服务
10+阅读 · 2025年8月19日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
54+阅读 · 2022年8月31日
专知会员服务
32+阅读 · 2021年1月9日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员