Rethinking Discrete Speech Representation Tokens for Accent Generation - 专知论文

会员服务 ·

0

离散 · 语音表示 · 表示 · 语音生成 · 设计 ·

Rethinking Discrete Speech Representation Tokens for Accent Generation

翻译：重新思考用于口音生成的离散语音表示标记

Jinzuomu Zhong,Yi Wang,Korin Richmond,Peter Bell

Discrete Speech Representation Tokens (DSRTs) have become a foundational component in speech generation. While prior work has extensively studied phonetic and speaker information in DSRTs, how accent information is encoded in DSRTs remains largely unexplored. In this paper, we present the first systematic investigation of accent information in DSRTs. We propose a unified evaluation framework that measures both accessibility of accent information via a novel Accent ABX task and recoverability via cross-accent Voice Conversion (VC) resynthesis. Using this framework, we analyse DSRTs derived from a variety of speech encoders. Our results reveal that accent information is substantially reduced when ASR supervision is used to fine-tune the encoder, but cannot be effectively disentangled from phonetic and speaker information through naive codebook size reduction. Based on these findings, we propose new content-only and content-accent DSRTs that significantly outperform existing designs in controllable accent generation. Our work highlights the importance of accent-aware evaluation and provides practical guidance for designing DSRTs for accent-controlled speech generation.

翻译：离散语音表示标记已成为语音生成的基础组成部分。尽管先前研究已广泛探讨了DSRT中的语音信息和说话人信息，但口音信息在DSRT中的编码方式在很大程度上仍未得到探索。本文首次系统性地研究了DSRT中的口音信息。我们提出了一个统一的评估框架，通过新颖的Accent ABX任务测量口音信息的可访问性，并通过跨口音语音转换重合成测量其可恢复性。利用该框架，我们分析了从多种语音编码器衍生的DSRT。结果表明，当使用ASR监督微调编码器时，口音信息会显著减少，但无法通过简单的码本大小缩减有效解耦语音信息和说话人信息。基于这些发现，我们提出了新的仅内容DSRT和内容-口音DSRT，在可控口音生成任务中显著优于现有设计。我们的工作强调了口音感知评估的重要性，并为设计用于口音控制语音生成的DSRT提供了实用指导。

0

相关内容

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

专知会员服务

7+阅读 · 2025年6月18日

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

专知会员服务

56+阅读 · 2023年12月2日

【MIT博士论文】用于口语处理的迁移学习，202页pdf

【MIT博士论文】用于口语处理的迁移学习，202页pdf

专知会员服务

28+阅读 · 2023年8月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【ICML2021】基于标记和未标记数据的统一语音表示学习

专知会员服务

10+阅读 · 2021年7月28日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

【开放书】清华大学《语音识别基本法》，215页pdf

【开放书】清华大学《语音识别基本法》，215页pdf

专知

10+阅读 · 2020年7月29日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

CLARITY: Contextual Linguistic Adaptation and Accent Retrieval for Dual-Bias Mitigation in Text-to-Speech Generation

Arxiv

0+阅读 · 2月17日

Speech to Speech Synthesis for Voice Impersonation

Arxiv

0+阅读 · 2月13日

Frontend Token Enhancement for Token-Based Speech Recognition

Arxiv

0+阅读 · 2月4日

DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion

Arxiv

0+阅读 · 1月30日

Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective

Arxiv

0+阅读 · 1月30日

Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation

Arxiv

0+阅读 · 1月29日

Gen-SER: When the generative model meets speech emotion recognition

Arxiv

0+阅读 · 1月28日

Phonological Tokenizer: Prosody-Aware Phonetic Token via Multi-Objective Fine-Tuning with Differentiable K-Means

Arxiv

0+阅读 · 1月27日

Geneses: Unified Generative Speech Enhancement and Separation

Arxiv

0+阅读 · 1月26日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

3+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

6+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

4+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

5+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

1+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

11+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

11+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

专知会员服务

7+阅读 · 2025年6月18日

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

专知会员服务

56+阅读 · 2023年12月2日

【MIT博士论文】用于口语处理的迁移学习，202页pdf

【MIT博士论文】用于口语处理的迁移学习，202页pdf

专知会员服务

28+阅读 · 2023年8月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【ICML2021】基于标记和未标记数据的统一语音表示学习

专知会员服务

10+阅读 · 2021年7月28日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

【开放书】清华大学《语音识别基本法》，215页pdf

【开放书】清华大学《语音识别基本法》，215页pdf

专知

10+阅读 · 2020年7月29日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

CLARITY: Contextual Linguistic Adaptation and Accent Retrieval for Dual-Bias Mitigation in Text-to-Speech Generation

Arxiv

0+阅读 · 2月17日

Speech to Speech Synthesis for Voice Impersonation

Arxiv

0+阅读 · 2月13日

Frontend Token Enhancement for Token-Based Speech Recognition

Arxiv

0+阅读 · 2月4日

DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion

Arxiv

0+阅读 · 1月30日

Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective

Arxiv

0+阅读 · 1月30日

Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation

Arxiv

0+阅读 · 1月29日

Gen-SER: When the generative model meets speech emotion recognition

Arxiv

0+阅读 · 1月28日

Phonological Tokenizer: Prosody-Aware Phonetic Token via Multi-Objective Fine-Tuning with Differentiable K-Means

Arxiv

0+阅读 · 1月27日

Geneses: Unified Generative Speech Enhancement and Separation

Arxiv

0+阅读 · 1月26日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员