Despite recent advances in speech-to-speech translation (S2ST), it remains difficult to achieve both high translation accuracy and practical flexibility. In this paper, we present S2ST-Omni, a compositional S2ST framework that integrates a high-accuracy speech-to-text translation (S2TT) frontend with a modular, plug-and-play text-to-speech (TTS) backend, enabling independent optimization of translation and synthesis. On the S2TT side, we introduce a hybrid adapter that follows a "local-then-global" strategy to bridge a pretrained Whisper encoder and a Qwen3 LLM, yielding a hierarchical acoustic-to-semantic abstraction. Building on this bridge, we further propose a hierarchical language-aware architecture that injects source-language information at two complementary levels. At the acoustic level, Language-Aware Dual-CTC operates on intermediate adapter features and employs FiLM-style feature modulation with a learnable gate, encouraging the model to learn language-specific but content-faithful acoustic representations. At the linguistic level, Language-Aware Prompting dynamically constructs source-language-conditioned prompts that activate language-specific translation knowledge in the LLM. To enable efficient optimization, we design a task-specific progressive fine-tuning strategy that first stabilizes speech-text alignment and then improves translation via LoRA on top of this converged foundation. The TTS backend remains fully modular and can be instantiated with any state-of-the-art synthesizer without retraining the S2TT frontend. Experiments on CVSS-C show that S2ST-Omni consistently achieves the best BLEU and ASR-BLEU across French, German, and Spanish to English directions, outperforming strong recent S2ST baselines.


翻译:尽管语音到语音翻译(S2ST)领域近期取得了进展,但要同时实现高翻译准确性和实际应用灵活性仍然困难。本文提出S2ST-Omni,一种组合式S2ST框架,它将高精度的语音到文本翻译(S2TT)前端与模块化、即插即用的文本到语音(TTS)后端相结合,从而能够独立优化翻译和合成过程。在S2TT方面,我们引入了一种遵循“先局部后全局”策略的混合适配器,用于桥接预训练的Whisper编码器与Qwen3大语言模型,实现从声学到语义的层次化抽象。基于此桥接结构,我们进一步提出了一种分层语言感知架构,在两个互补的层次注入源语言信息。在声学层面,语言感知双CTC作用于适配器的中间特征,并采用带有可学习门控的FiLM风格特征调制,促使模型学习语言特定但内容忠实的声音表征。在语言学层面,语言感知提示动态构建以源语言为条件的提示,以激活大语言模型中语言特定的翻译知识。为了实现高效优化,我们设计了一种任务特定的渐进式微调策略:首先稳定语音-文本的对齐,然后在此收敛基础上通过LoRA进一步提升翻译性能。TTS后端保持完全模块化,可以实例化为任何先进的合成器,而无需重新训练S2TT前端。在CVSS-C数据集上的实验表明,S2ST-Omni在法语、德语和西班牙语到英语的翻译方向上,始终取得最佳的BLEU和ASR-BLEU分数,超越了近期多个强力的S2ST基线模型。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员