Many existing audio processing and generation models rely on task-specific architectures, resulting in fragmented development efforts and limited extensibility. It is therefore promising to design a unified framework capable of handling multiple tasks, while providing robust instruction and audio understanding and high-quality audio generation. This requires a compatible paradigm design, a powerful backbone, and a high-fidelity audio reconstruction module. To meet these requirements, this technical report introduces QuarkAudio, a decoder-only autoregressive (AR) LM-based generative framework that unifies multiple tasks. The framework includes a unified discrete audio tokenizer, H-Codec, which incorporates self-supervised learning (SSL) representations into the tokenization and reconstruction process. We further propose several improvements to H-Codec, such as a dynamic frame-rate mechanism and extending the audio sampling rate to 48 kHz. QuarkAudio unifies tasks by using task-specific conditional information as the conditioning sequence of the decoder-only LM, and predicting discrete target audio tokens in an AR manner. The framework supports a wide range of audio processing and generation tasks, including speech restoration (SR), target speaker extraction (TSE), speech separation (SS), voice conversion (VC), and language-queried audio source separation (LASS). In addition, we extend downstream tasks to universal free-form audio editing guided by natural language instructions (including speech semantic editing and audio event editing). Experimental results show that H-Codec achieves high-quality audio reconstruction with a low frame rate, improving both the efficiency and performance of downstream audio generation, and that QuarkAudio delivers competitive or comparable performance to state-of-the-art task-specific or multi-task systems across multiple tasks.


翻译:现有许多音频处理与生成模型依赖任务特定的架构,导致开发工作碎片化且可扩展性有限。因此,设计一个能够处理多种任务、同时提供鲁棒的指令与音频理解能力及高质量音频生成的统一框架具有广阔前景。这需要兼容的范式设计、强大的骨干网络以及高保真音频重建模块。为满足这些需求,本技术报告介绍了QuarkAudio——一个基于仅解码器自回归语言模型的生成式框架,可统一多种任务。该框架包含统一的离散音频分词器H-Codec,其将自监督学习表征融入分词与重建过程。我们进一步提出了H-Codec的若干改进,例如动态帧率机制以及将音频采样率扩展至48 kHz。QuarkAudio通过将任务特定条件信息作为仅解码器语言模型的条件序列,并以自回归方式预测离散目标音频令牌来实现任务统一。该框架支持广泛的音频处理与生成任务,包括语音修复、目标说话人提取、语音分离、语音转换以及语言查询的音频源分离。此外,我们将下游任务扩展至自然语言指令引导的通用自由形式音频编辑(包括语音语义编辑与音频事件编辑)。实验结果表明,H-Codec能以低帧率实现高质量音频重建,提升下游音频生成的效率与性能;且QuarkAudio在多项任务中达到与当前最先进的任务特定或多任务系统相当或更具竞争力的性能。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年10月9日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
22+阅读 · 2021年8月10日
Python图像处理,366页pdf,Image Operators Image Processing in Python
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月5日
Arxiv
0+阅读 · 1月5日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2021年10月9日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
22+阅读 · 2021年8月10日
Python图像处理,366页pdf,Image Operators Image Processing in Python
相关论文
Arxiv
0+阅读 · 1月5日
Arxiv
0+阅读 · 1月5日
Arxiv
0+阅读 · 2025年12月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员