残差标记增强用于语音建模的掩码自编码器 (Residual Tokens Enhance Masked Autoencoders for Speech Modeling) - 专知论文

会员服务 ·

0

掩码自编码MAE · 掩码 · 掩码自编码器 · 属性 · 语音建模 ·

Residual Tokens Enhance Masked Autoencoders for Speech Modeling

翻译：残差标记增强用于语音建模的掩码自编码器

Samir Sadok,Stéphane Lathuilière,Xavier Alameda-Pineda

from arxiv, Submitted to ICASSP 2026 (accepted)

Recent speech modeling relies on explicit attributes such as pitch, content, and speaker identity, but these alone cannot capture the full richness of natural speech. We introduce RT-MAE, a novel masked autoencoder framework that augments the supervised attributes-based modeling with unsupervised residual trainable tokens, designed to encode the information not explained by explicit labeled factors (e.g., timbre variations, noise, emotion etc). Experiments show that RT-MAE improves reconstruction quality, preserving content and speaker similarity while enhancing expressivity. We further demonstrate its applicability to speech enhancement, removing noise at inference while maintaining controllability and naturalness.

翻译：当前语音建模主要依赖于音高、内容和说话人身份等显式属性，但这些属性本身无法完整捕捉自然语音的全部丰富特征。我们提出RT-MAE，一种新颖的掩码自编码器框架，通过引入无监督的可训练残差标记来增强基于显式属性的监督建模。这些残差标记旨在编码未被显式标注因素（如音色变化、噪声、情感等）解释的信息。实验表明，RT-MAE提升了重建质量，在保持内容与说话人相似度的同时增强了表达力。我们进一步验证了其在语音增强任务中的适用性，能够在推理阶段有效去除噪声，同时保持可控性与自然度。

0

相关内容

掩码自编码MAE

掩码自编码MAE

掩码自编码MAE

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

专知会员服务

7+阅读 · 2025年6月18日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

专知会员服务

17+阅读 · 2024年3月4日

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

专知会员服务

23+阅读 · 2023年8月22日

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR

Arxiv

0+阅读 · 2月13日

MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice Conversion With Increased Controllability via Multiple Guidances

Arxiv

0+阅读 · 2月11日

Knowledge-Guided Masked Autoencoder with Linear Spectral Mixing and Spectral-Angle-Aware Reconstruction

Arxiv

0+阅读 · 2月10日

Improving Reconstruction of Representation Autoencoder

Arxiv

0+阅读 · 2月9日

Scaling Speech Tokenizers with Diffusion Autoencoders

Arxiv

0+阅读 · 2月6日

Fine-Grained Frame Modeling in Multi-head Self-Attention for Speech Deepfake Detection

Arxiv

0+阅读 · 2月4日

Frontend Token Enhancement for Token-Based Speech Recognition

Arxiv

0+阅读 · 2月4日

Robust Representation Learning in Masked Autoencoders

Arxiv

0+阅读 · 2月3日

Masked Autoencoders as Universal Speech Enhancer

Arxiv

0+阅读 · 2月2日

Mind the Shift: Using Delta SSL Embeddings to Enhance Child ASR

Arxiv

0+阅读 · 1月28日

VIP会员

文章信息

相关主题

掩码自编码MAE

掩码自编码器

最新内容

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

2+阅读 · 今天14:59

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

2+阅读 · 今天14:21

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

1+阅读 · 今天13:45

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

0+阅读 · 今天13:52

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

2+阅读 · 今天13:39

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

0+阅读 · 今天13:41

美欧最新（2026）反无人机系统选项、技术与获取一览

美欧最新（2026）反无人机系统选项、技术与获取一览

专知会员服务

2+阅读 · 今天13:13

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

2+阅读 · 今天13:11

《采用系统思维应对混合战争》125页

《采用系统思维应对混合战争》125页

专知会员服务

2+阅读 · 今天12:47

战争机器学习：数据生态系统构建（155页）

战争机器学习：数据生态系统构建（155页）

专知会员服务

6+阅读 · 今天8:10

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

专知会员服务

2+阅读 · 今天7:40

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

13+阅读 · 4月14日

内省扩散语言模型

内省扩散语言模型

专知会员服务

5+阅读 · 4月14日

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

4+阅读 · 4月14日

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

4+阅读 · 4月14日

相关VIP内容

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

专知会员服务

7+阅读 · 2025年6月18日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

专知会员服务

17+阅读 · 2024年3月4日

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

专知会员服务

23+阅读 · 2023年8月22日

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

【博士论文】已对齐人工智能系统的持久脆弱性

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

美陆军设想无人系统司令部

相关资讯

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

相关论文

Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR

Arxiv

0+阅读 · 2月13日

MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice Conversion With Increased Controllability via Multiple Guidances

Arxiv

0+阅读 · 2月11日

Knowledge-Guided Masked Autoencoder with Linear Spectral Mixing and Spectral-Angle-Aware Reconstruction

Arxiv

0+阅读 · 2月10日

Improving Reconstruction of Representation Autoencoder

Arxiv

0+阅读 · 2月9日

Scaling Speech Tokenizers with Diffusion Autoencoders

Arxiv

0+阅读 · 2月6日

Fine-Grained Frame Modeling in Multi-head Self-Attention for Speech Deepfake Detection

Arxiv

0+阅读 · 2月4日

Frontend Token Enhancement for Token-Based Speech Recognition

Arxiv

0+阅读 · 2月4日

Robust Representation Learning in Masked Autoencoders

Arxiv

0+阅读 · 2月3日

Masked Autoencoders as Universal Speech Enhancer

Arxiv

0+阅读 · 2月2日

Mind the Shift: Using Delta SSL Embeddings to Enhance Child ASR

Arxiv

0+阅读 · 1月28日

相关基金

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员