Target speaker extraction (TSE) aims to recover the speech of a desired speaker from a mixture given a short enrollment utterance, while speech enhancement (SE) focuses on improving speech quality under noisy conditions. Most existing TSE and SE systems are based on discriminative modeling and have shown strong interference suppression ability, but they often remain limited in perceptual quality and naturalness. To address this issue, we first introduce LauraTSE, a generative TSE model built on an autoregressive decoder-only language model. Although generative modeling is promising for quality enhancement, purely generative TSE may suffer from hallucination, content drift, and limited controllability in complex acoustic conditions. We therefore propose a discriminative-generative two-stage framework, where a discriminative front-end first produces target-related representations with strong interference suppression, and a generative back-end then reconstructs high-quality speech in the neural audio codec representation space. This design combines the controllability of discriminative extraction with the reconstruction capability of generative modeling. We further investigate several collaboration strategies for the two-stage framework, including front-end freezing, joint fine-tuning, SI-SDR regularization, and autoregressive/non-autoregressive inference. Experimental results on both TSE and SE benchmarks show that the proposed framework achieves a better balance among perceptual quality, intelligibility, and speaker consistency than purely discriminative or purely generative baselines.


翻译:目标说话人提取(TSE)旨在从混合语音中,根据一段简短注册语音恢复目标说话人的语音;语音增强(SE)则侧重于在噪声条件下改善语音质量。现有大部分TSE和SE系统基于判别式建模,展现出强大的干扰抑制能力,但在感知质量和自然度方面往往受限。为解决这一问题,我们首先引入LauraTSE,一种基于自回归仅解码器语言模型的生成式TSE模型。尽管生成式建模在质量提升方面前景广阔,但纯生成式TSE在复杂声学环境中可能面临幻觉、内容漂移和可控性有限等问题。为此,我们提出一种判别式-生成式两阶段框架:判别式前端首先生成具有强干扰抑制能力的目标相关表示,然后生成式后端在神经音频编解码表示空间中重建高质量语音。该设计结合了判别式提取的可控性与生成式建模的重建能力。我们进一步研究了两阶段框架的多种协作策略,包括前端冻结、联合微调、SI-SDR正则化以及自回归/非自回归推理。在TSE和SE基准上的实验结果表明,与纯判别式或纯生成式基线相比,该框架在感知质量、可懂度和说话人一致性之间实现了更优的平衡。

0
下载
关闭预览

相关内容

IEEE软件工程事务处理对定义明确的理论结果和对软件的构建、分析或管理有潜在影响的实证研究感兴趣。这些交易的范围从制定原则的机制到将这些原则应用到具体环境。具体的主题领域包括:a)开发和维护方法和模型,例如软件系统的规范、设计和实现的技术和原则,包括符号和过程模型;b)评估方法,例如软件测试和验证、可靠性模型、测试和诊断程序,用于错误控制的软件冗余和设计,以及过程和产品各个方面的测量和评估;c)软件项目管理,例如生产力因素、成本模型、进度和组织问题、标准;d)工具和环境,例如特定工具,集成工具环境,包括相关的体系结构、数据库、并行和分布式处理问题;e)系统问题,例如硬件-软件权衡;f)最新调查,提供对某一特定关注领域历史发展的综合和全面审查。 官网地址:http://dblp.uni-trier.de/db/journals/tse/
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
《使用生成式大语言模型进行多语言事件提取》最新85页
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
【字节跳动-李航】一种按序列进行对话状态跟踪的方法
专知会员服务
30+阅读 · 2020年11月25日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员