Word-Level Emotional Expression Control in Zero-Shot Text-to-Speech Synthesis - 专知论文

会员服务 ·

0

合成 · 语音合成 · 样本 · 零样本 · 文本转语音 ·

Word-Level Emotional Expression Control in Zero-Shot Text-to-Speech Synthesis

翻译：词级情感表达控制在零样本文本转语音合成中的应用

Tianrui Wang,Haoyu Wang,Meng Ge,Cheng Gong,Chunyu Qiang,Ziyang Ma,Zikang Huang,Guanrou Yang,Xiaobao Wang,Eng Siong Chng,Xie Chen,Longbiao Wang,Jianwu Dang

While emotional text-to-speech (TTS) has made significant progress, most existing research remains limited to utterance-level emotional expression and fails to support word-level control. Achieving word-level expressive control poses fundamental challenges, primarily due to the complexity of modeling multi-emotion transitions and the scarcity of annotated datasets that capture intra-sentence emotional and prosodic variation. In this paper, we propose WeSCon, the first self-training framework that enables word-level control of both emotion and speaking rate in a pretrained zero-shot TTS model, without relying on datasets containing intra-sentence emotion or speed transitions. Our method introduces a transition-smoothing strategy and a dynamic speed control mechanism to guide the pretrained TTS model in performing word-level expressive synthesis through a multi-round inference process. To further simplify the inference, we incorporate a dynamic emotional attention bias mechanism and fine-tune the model via self-training, thereby activating its ability for word-level expressive control in an end-to-end manner. Experimental results show that WeSCon effectively overcomes data scarcity, achieving state-of-the-art performance in word-level emotional expression control while preserving the strong zero-shot synthesis capabilities of the original TTS model.

翻译：尽管情感文本转语音合成技术已取得显著进展，但现有研究大多仍局限于语句级情感表达，无法支持词级控制。实现词级表达控制面临根本性挑战，主要源于多情感过渡建模的复杂性，以及缺乏捕捉句内情感与韵律变化的标注数据集。本文提出WeSCon——首个自训练框架，可在预训练的零样本TTS模型中实现词级情感与语速的双重控制，且无需依赖包含句内情感或语速过渡的数据集。本方法通过过渡平滑策略与动态语速控制机制，引导预训练TTS模型通过多轮推理过程实现词级表达合成。为简化推理流程，我们引入动态情感注意力偏置机制，并通过自训练对模型进行微调，从而以端到端方式激活其词级表达控制能力。实验结果表明，WeSCon能有效克服数据稀缺问题，在保持原始TTS模型强大零样本合成能力的同时，实现了词级情感表达控制的最先进性能。

0

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

23+阅读 · 2024年12月13日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

CVer

15+阅读 · 2020年7月27日

“文本情感语义计算”国家自然科学基金重点项目网站正式上线

“文本情感语义计算”国家自然科学基金重点项目网站正式上线

哈工大SCIR

12+阅读 · 2019年8月16日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

情感分析词嵌入预处理细粒度实验综述（附20页全文下载）

情感分析词嵌入预处理细粒度实验综述（附20页全文下载）

专知

18+阅读 · 2019年2月5日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

深度学习在情感分析中的应用

深度学习在情感分析中的应用

CSDN大数据

14+阅读 · 2017年8月22日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Arxiv

0+阅读 · 2月5日

CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering

Arxiv

0+阅读 · 2月3日

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

Arxiv

0+阅读 · 1月30日

Speech Emotion Recognition with ASR Integration

Arxiv

0+阅读 · 1月30日

MSF-SER: Enriching Acoustic Modeling with Multi-Granularity Semantics for Speech Emotion Recognition

Arxiv

0+阅读 · 1月24日

Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition

Arxiv

0+阅读 · 1月23日

Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions

Arxiv

0+阅读 · 1月19日

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

Arxiv

0+阅读 · 1月8日

Segment-Aware Conditioning for Training-Free Intra-Utterance Emotion and Duration Control in Text-to-Speech

Arxiv

0+阅读 · 1月6日

Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

文本转语音

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

23+阅读 · 2024年12月13日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

我用NLP搞定了文本情感分析，还学会了基于注意力的Transformer

CVer

15+阅读 · 2020年7月27日

“文本情感语义计算”国家自然科学基金重点项目网站正式上线

“文本情感语义计算”国家自然科学基金重点项目网站正式上线

哈工大SCIR

12+阅读 · 2019年8月16日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

情感分析词嵌入预处理细粒度实验综述（附20页全文下载）

情感分析词嵌入预处理细粒度实验综述（附20页全文下载）

专知

18+阅读 · 2019年2月5日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

深度学习在情感分析中的应用

深度学习在情感分析中的应用

CSDN大数据

14+阅读 · 2017年8月22日

相关论文

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Arxiv

0+阅读 · 2月5日

CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering

Arxiv

0+阅读 · 2月3日

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

Arxiv

0+阅读 · 1月30日

Speech Emotion Recognition with ASR Integration

Arxiv

0+阅读 · 1月30日

MSF-SER: Enriching Acoustic Modeling with Multi-Granularity Semantics for Speech Emotion Recognition

Arxiv

0+阅读 · 1月24日

Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition

Arxiv

0+阅读 · 1月23日

Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions

Arxiv

0+阅读 · 1月19日

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

Arxiv

0+阅读 · 1月8日

Segment-Aware Conditioning for Training-Free Intra-Utterance Emotion and Duration Control in Text-to-Speech

Arxiv

0+阅读 · 1月6日

Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration

Arxiv

0+阅读 · 1月6日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于网络的情感语义词典的自动构建技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员