Neural audio codecs are at the core of modern conversational speech technologies, converting continuous speech into sequences of discrete tokens that can be processed by LLMs. However, existing codecs typically operate at fixed frame rates, allocating tokens uniformly in time and producing unnecessarily long sequences. In this work, we introduce DyCAST, a Dynamic Character-Aligned Speech Tokenizer that enables variable-frame-rate tokenization through soft character-level alignment and explicit duration modeling. DyCAST learns to associate tokens with character-level linguistic units during training and supports alignment-free inference with direct control over token durations at decoding time. To improve speech resynthesis quality at low frame rates, we further introduce a retrieval-augmented decoding mechanism that enhances reconstruction fidelity without increasing bitrate. Experiments show that DyCAST achieves competitive speech resynthesis quality and downstream performance while using significantly fewer tokens than fixed-frame-rate codecs.


翻译:神经音频编解码器是现代对话语音技术的核心,它将连续语音转换为可由大型语言模型处理的离散标记序列。然而,现有编解码器通常以固定帧率运行,在时间上均匀分配标记并产生不必要的长序列。本文提出DyCAST,一种动态字符对齐的语音分词器,通过软字符级对齐和显式时长建模实现可变帧率分词。DyCAST在训练过程中学习将标记与字符级语言单元相关联,并在解码时支持无需对齐的推理,直接控制标记时长。为提升低帧率下的语音重合成质量,我们进一步引入检索增强的解码机制,在不增加比特率的情况下提高重建保真度。实验表明,DyCAST在使用显著少于固定帧率编解码器的标记数量的同时,实现了具有竞争力的语音重合成质量与下游任务性能。

0
下载
关闭预览

相关内容

【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
用Attention玩转CV,一文总览自注意力语义分割进展
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
BiSeNet:双向分割网络进行实时语义分割
统计学习与视觉计算组
22+阅读 · 2018年8月23日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员