Voice ''Cloning'' is Style Transfer - 专知论文

会员服务 ·

0

损失 · MoDELS · INFORMS · 同质 · 可约的 ·

Voice ''Cloning'' is Style Transfer

翻译：语音"克隆"实际上是风格迁移

Kaitlyn Zhou,Federico Bianchi,Martijn Bartelds,Anna Pot,Yongchan Kwon,James Zou

Artificially generated speech is increasingly embedded in everyday life. Voice cloning in particular enables applications where identity preservation is important, such as completing a recording, dubbing in a new language, or preserving the voices of individuals with speech loss. However, in our work, we find that despite the term, voice cloning does not faithfully ''clone'' an individual's voice. Instead, we find that widely-used voice cloning models systematically apply style transfer to source voices. As rated by human annotators, cloned voices are perceived as more authoritative, warm, customer-service-like, and human-like compared to their sources. Human annotators also report greater trust in cloned voices than source voices, and a greater willingness to disclose sensitive personal information to them. Our work furthermore shows that voice cloning leads to homogenization of speaker characteristics, as measured by reduced variance in accent, speaking rate, and the audio embedding space. Together, our results highlight a new set of limitations and risks of voice cloning technology and their potential impact on human behavior.

翻译：人工生成的语音正日益融入日常生活。语音克隆技术尤其能够在需要保留身份特征的应用场景中发挥作用，例如完成录音补录、多语言配音或保留失声者的声音。然而，本研究发现，尽管称为"克隆"，但语音克隆并未忠实地"复制"个体声音。相反，广泛使用的语音克隆模型系统性地对源语音施加了风格迁移。根据人工评估者的评分，相较于源语音，克隆语音被认为更具权威性、温暖感、客服亲和力以及人类拟真度。人工评估者还报告了对克隆语音的信任度高于源语音，并更愿意向其透露敏感个人信息。此外，本研究显示，语音克隆导致说话者特征的均质化——具体表现为口音、语速及音频嵌入空间方差的降低。这些结果共同揭示了语音克隆技术的一系列新型局限与风险，及其对人类行为的潜在影响。

0

相关内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

音退化问题：基于输入操控的鲁棒语音转换综述

音退化问题：基于输入操控的鲁棒语音转换综述

专知会员服务

8+阅读 · 2025年12月20日

不可错过！斯坦福最新《Transformer前沿》课程，从Transformer基础到语言模型再到语境学习

不可错过！斯坦福最新《Transformer前沿》课程，从Transformer基础到语言模型再到语境学习

专知会员服务

83+阅读 · 2023年1月27日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

智能语音赛道：风口已至，全面开花

专知会员服务

38+阅读 · 2021年5月21日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大SCIR

16+阅读 · 2019年6月12日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition

Arxiv

0+阅读 · 6月11日

Vocal Identity Under Siege by AI Voice Cloning Technologies

Arxiv

0+阅读 · 6月11日

KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026

Arxiv

0+阅读 · 6月5日

Voice "Cloning" is Style Transfer

Arxiv

0+阅读 · 5月26日

RVCBench: Benchmarking the Robustness of Voice Cloning Across Modern Audio Generation Models

Arxiv

0+阅读 · 5月24日

Me, Myself, and My Voice: Exploring Cultural and Linguistic Identity in AAC AI-generated Voices

Arxiv

0+阅读 · 5月23日

OneVoice: One Model, Triple Scenarios-Towards Unified Zero-shot Voice Conversion

Arxiv

0+阅读 · 5月21日

SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement

Arxiv

0+阅读 · 5月17日

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

Arxiv

0+阅读 · 5月11日

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

Arxiv

0+阅读 · 4月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

4+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

音退化问题：基于输入操控的鲁棒语音转换综述

音退化问题：基于输入操控的鲁棒语音转换综述

专知会员服务

8+阅读 · 2025年12月20日

不可错过！斯坦福最新《Transformer前沿》课程，从Transformer基础到语言模型再到语境学习

不可错过！斯坦福最新《Transformer前沿》课程，从Transformer基础到语言模型再到语境学习

专知会员服务

83+阅读 · 2023年1月27日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

智能语音赛道：风口已至，全面开花

专知会员服务

38+阅读 · 2021年5月21日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大SCIR

16+阅读 · 2019年6月12日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition

Arxiv

0+阅读 · 6月11日

Vocal Identity Under Siege by AI Voice Cloning Technologies

Arxiv

0+阅读 · 6月11日

KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026

Arxiv

0+阅读 · 6月5日

Voice "Cloning" is Style Transfer

Arxiv

0+阅读 · 5月26日

RVCBench: Benchmarking the Robustness of Voice Cloning Across Modern Audio Generation Models

Arxiv

0+阅读 · 5月24日

Me, Myself, and My Voice: Exploring Cultural and Linguistic Identity in AAC AI-generated Voices

Arxiv

0+阅读 · 5月23日

OneVoice: One Model, Triple Scenarios-Towards Unified Zero-shot Voice Conversion

Arxiv

0+阅读 · 5月21日

SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement

Arxiv

0+阅读 · 5月17日

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

Arxiv

0+阅读 · 5月11日

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

Arxiv

0+阅读 · 4月14日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员