Pixel-TTS: Image based Text Rendering for Robust Text-to-Speech

Recent advances in pixel-based text modeling show that representing text as images enables models to exploit visual cues for language understanding. Grounding text in its visual form allows structurally similar characters with different Unicode encodings to produce similar embeddings, benefiting cross-lingual and zero-shot scenarios. Conventional text-based approaches treat each character independently, limiting generalization to unseen characters and requiring embedding expansion during cross-lingual adaptation. We propose Pixel-TTS, the first framework for visually grounded speech synthesis. It renders text as images and projects them through a 2D convolutional layer to generate embeddings. This design eliminates embedding matrix expansion during fine-tuning while improving robustness to unseen characters and orthographic variations. Extensive experiments show Pixel-TTS achieves competitive performance with strong baselines, faster convergence and robust zero-shot generalization.

翻译：近期基于像素的文本建模研究表明，将文本表示为图像可使模型利用视觉线索进行语言理解。将文本嵌入其视觉形式，能使具有不同Unicode编码但结构相似的字符产生相似的嵌入表示，这有利于跨语言和零样本场景的应用。传统基于文本的方法独立处理每个字符，限制了模型对未见字符的泛化能力，并在跨语言适配时需要扩展嵌入矩阵。我们提出Pixel-TTS——首个视觉感知语音合成框架。该方法将文本渲染为图像，并通过二维卷积层投影生成嵌入表示。该设计在微调过程中无需扩展嵌入矩阵，同时提升了模型对未见字符及正字法变体的鲁棒性。大量实验表明，Pixel-TTS在达到与强基线模型相当性能的同时，展现出更快的收敛速度和稳健的零样本泛化能力。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

文本到图像合成：十年回顾

专知会员服务

31+阅读 · 2024年11月26日

《文本到图像跨模态生成》一项系统性综述

专知会员服务

32+阅读 · 2024年1月26日

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日