降解语音：通过输入操控实现鲁棒性语音转换的全面综述

身份、口音、风格及情感是人类言语的核心要素。语音转换（Voice Conversion, VC）技术旨在处理双输入说话者的语音信号及其他模态辅助信息（如提示词、情感标签等），在保留**语言内容（Linguistic contents）的前提下实现副语言特征（Para-linguistic features）**的迁移。近期，VC 模型在生成质量与个性化能力方面取得了跨越式进展，使其在隐私保护、逝者声纹重现及构音障碍语音康复等多元化应用领域备受瞩目。

然而，受限于纯净的训练数据，现有的 VC 模型往往仅能捕获非鲁棒性特征（Non-robust features）。因此，在应对包含噪声、混响、对抗性攻击或微小扰动的现实降质语音输入时，模型表现往往不尽如人意。这一现状对 VC 系统在真实环境下的**稳健部署（Robust deployment）提出了严峻挑战。尽管前沿研究已开始探索针对 VC 系统的潜在攻击及其对策，但目前仍缺乏关于 VC 模型在输入操控（Input manipulation）**下鲁棒性的全面理解。

基于此，本文旨在探讨以下关键问题：其一，不同形式的输入降质攻击在何种程度上会干扰 VC 模型的预期输出？其二，现有的防御手段采取了哪些切入路径，其防御机制应如何分类？其三，攻击与防御策略是否具备进一步优化的空间？为解答上述问题，本文从输入操控的视角对既有的攻击与防御方法进行了系统分类，并从清晰度、自然度、音色相似度及主观感知四个维度深度评估了输入降质对模型性能的影响。最后，本文总结了当前领域内尚未解决的挑战，并对未来研究方向进行了展望。

1 引言

高保真且个性化的音频生成一直是音频领域的热点话题。语音合成（Speech Synthesis）作为一项从多种输入信号（如语音、语言、情感、歌曲）中提取表征信息并以语音形式呈现的任务，受到了社会的广泛关注。其中，语音转换（Voice Conversion, VC）是一种风格迁移技术，旨在将源语言的方言转换为与目标说话者音调旋律产生共鸣的表达方式，同时保留源说话者的语言本质 [87]。换言之，VC 模型修改了源说话者的音高、音色和风格等副语言特征（Para-linguistic features），同时保留了内容等说话者无关信息（Speaker-independent information）。

通常，大量的 VC 研究可根据任务类型的不同分为三类：说话者 VC、情感 VC 和歌声 VC。作为基础说话者 VC 任务的变体，情感 VC 和歌声 VC 具有更大的挑战性。情感 VC 侧重于在保留其他信息的同时，迁移目标说话者提供的情感状态。相比之下，歌声 VC 则更强调对音高、能量和歌手风格等基本要素的建模。因此，这两项任务都要求具备更强的特征解耦能力。具体而言，说话者 VC 已扩展至各类细分任务，如低资源 VC、方言转换、悄悄话转语音（Whisper-to-speech）以及语音翻译的子模块。这些丰富的任务激发了学术界的浓厚兴趣，多样化的技术为语音转换的多方面应用奠定了基础，包括音频编辑 [100]、构音障碍语音康复 [93]、隐私保护 [23] 和数据增强 [83]。

然而，这些重要的 VC 贡献主要依赖于纯净的语音数据。由于神经网络在额外噪声、混响、对抗性攻击甚至微小扰动下的脆弱性，在现实场景中往往导致不尽如人意且不可预见表现。近期，基于 $L_{\infty}$ 范数约束 [41, 99]、快速梯度符号法（FGSM）[18]、生成对抗网络（GAN）框架 [25]、频带遮蔽 [62]、频率逆声压级 [114] 以及心理声学模型 [55] 生成的对抗样本，已证明了攻击 VC 模型的可行性。最成功的对抗噪声甚至可以在保证对未知 VC 模型的迁移性或实时场景下的高效性的同时，秘密地改变语音内容和说话者身份 [14]。此外，白噪声、街道噪声等加性噪声，以及通过 pyroomacoustics 工具包模拟的卷积噪声，都会为转换后的语音数据引入失真。这导致了一系列偏差，如语言内容的错误表达和情感变化的模糊，可能影响个人特征体现或患者病理矫正的有效性。

为了应对这些潜在威胁，研究者们逐渐提出了诸如高频噪声消除 [67]、噪声不变表征学习 [26, 112] 以及级联预训练模型策略 [20, 21] 等方法。根据是否对降质输入音频进行预处理，这些策略可进一步分为主动防御（Proactive defenses）和被动防御（Passive defenses）。主动防御通过在训练期间学习鲁棒的特征分布来提高 VC 模型对未知数据的适应能力；而被动防御则通过各种语音增强技术，确保音频在送入 VC 模型之前得到净化。尽管这些构想行之有效，但该领域仍缺乏明确的框架和全面的研究。因此，对现有工作进行分类并探索在现实设置中获得鲁棒 VC 的潜在策略具有重大价值。从历史研究来看，语音转换（VC）研究多集中于方法论演变 [84]、架构选择 [6] 以及 GANs 等新兴生成技术 [24]。尽管近期的综述涵盖了深度伪造检测 [49] 和语音克隆术语 [2]，但仍缺乏针对 VC 系统鲁棒性的专门分析。这与 NLP [97]、自动语音识别（ASR）[27] 和说话者验证 [104] 等相关领域形成了鲜明对比，后者的鲁棒性综述已非常丰富。如表 1 明确对比所示，虽然其他音频领域受益于系统的安全性分析，但专门针对语音转换系统鲁棒性的全面综述仍然稀缺。与以往有限的讨论 [43] 不同，本综述系统地探讨了三种类型的语音操控技术，重点关注对抗性攻击策略和防御特性。本文的主要贡献总结如下： * 据我们所知，这是首篇关注语音转换模型针对输入数据操控鲁棒性的全面综述，从而引导业界关注这一关键但尚未得到充分开发的领域。

我们提出了一种基于输入操控技术的 VC 脆弱性新型分类法。此外，我们建立了一个统一的评估框架，整合了从清晰度、音色相似度到主观感知的多维指标，以标准化鲁棒性评估。

我们概述了构建鲁棒 VC 模型的潜在路径，包括平衡不可感知性、成功率和迁移性的强攻击策略，以及大规模语音模型与主动/被动防御策略的集成。本综述有望为安全 VC 架构的设计提供指导。

本文结构安排如下：第 2 节介绍语音转换系统的背景知识，涵盖从解耦语音特征中提取低维表征、语音转换任务及副语言参数调节等主题；第 3 节概述了基于输入操控的语音转换攻击分类；第 4 节阐释了鲁棒 VC 系统的概念，并介绍了现有的针对攻击的被动和主动防御方法；第 5 节介绍了常用数据集、评估框架及评估结果；第 6 节总结了各类 VC 挑战并讨论了鲁棒 VC 研究的未来前景；最后，我们在末节对本综述进行总结。