通用个性化器：基于元学习的少样本构音障碍语音识别 (The Universal Personalizer: Few-Shot Dysarthric Speech Recognition via Meta-Learning) - 专知论文

会员服务 ·

0

样本 · 错误率 · 构音障碍 · 识别 · 语音识别 ·

The Universal Personalizer: Few-Shot Dysarthric Speech Recognition via Meta-Learning

翻译：通用个性化器：基于元学习的少样本构音障碍语音识别

Dhruuv Agarwal,Harry Zhang,Yang Yu,Quan Wang

Personalizing dysarthric ASR is hindered by demanding enrollment collection and per-user training. We propose a hybrid meta-training method for a single model, enabling zero-shot and few-shot on-the-fly personalization via in-context learning (ICL). On Euphonia, it achieves 13.9% Word Error Rate (WER), surpassing speaker-independent baselines (17.5%). On SAP Test-1, our 5.3% WER outperforms the challenge-winning team (5.97%). On Test-2, our 9.49% trails only the winner (8.11%) but without relying on techniques like offline model-merging or custom audio chunking. Curation yields a 40% WER reduction using random same-speaker examples, validating active personalization. While static text curation fails to beat this baseline, oracle similarity reveals substantial headroom, highlighting dynamic acoustic retrieval as the next frontier. Data ablations confirm rapid low-resource speaker adaptation, establishing the model as a practical personalized solution.

翻译：构音障碍语音识别的个性化面临注册数据采集困难与单用户训练成本高昂的挑战。本文提出一种混合元训练方法，通过单模型实现基于上下文学习的零样本与少样本实时个性化。在Euphonia数据集上，该方法词错误率降至13.9%，优于说话人无关基线（17.5%）。在SAP Test-1测试集上，5.3%的词错误率超越了挑战赛获胜团队（5.97%）。在Test-2测试集上，9.49%的词错误率仅次于获胜方案（8.11%），且无需依赖离线模型融合或定制音频分块等技术。实验表明：通过随机选取同说话人样本进行数据筛选可实现40%的词错误率降低，验证了主动个性化的有效性。静态文本筛选虽未能超越该基线，但通过理想相似度分析揭示了显著的优化空间，表明动态声学检索是未来关键研究方向。数据消融实验证实了模型在低资源说话人场景下的快速适应能力，确立了其作为实用个性化解决方案的可行性。

0

相关内容

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

【干货书】有限样本学习-元学习及其在通信系统中的应用，134页pdf，

【干货书】有限样本学习-元学习及其在通信系统中的应用，134页pdf，

专知会员服务

59+阅读 · 2022年10月8日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【伯克利】元学习的元基线，A New Meta-Baseline for Few-Shot Learning

【伯克利】元学习的元基线，A New Meta-Baseline for Few-Shot Learning

专知会员服务

67+阅读 · 2020年3月28日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

【开放书】清华大学《语音识别基本法》，215页pdf

【开放书】清华大学《语音识别基本法》，215页pdf

专知

10+阅读 · 2020年7月29日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

元学习—Meta Learning的兴起

元学习—Meta Learning的兴起

专知

44+阅读 · 2019年10月19日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

云栖社区

22+阅读 · 2019年4月6日

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

AI科技评论

14+阅读 · 2018年4月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下基于多源数据协同的个性化服务关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Arxiv

0+阅读 · 3月6日

Prototype-Based Disentanglement for Controllable Dysarthric Speech Synthesis

Arxiv

0+阅读 · 2月19日

RosettaSpeech: Zero-Shot Speech-to-Speech Translation without Parallel Speech

Arxiv

0+阅读 · 2月15日

Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR

Arxiv

0+阅读 · 2月13日

Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling

Arxiv

0+阅读 · 2月11日

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Arxiv

0+阅读 · 2月5日

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Arxiv

0+阅读 · 2月4日

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

专知会员服务

0+阅读 · 4月12日

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

专知会员服务

1+阅读 · 4月12日

最新“指挥控制”领域出版物合集（简介）

最新“指挥控制”领域出版物合集（简介）

专知会员服务

1+阅读 · 4月12日

面向军事作战需求开发的人工智能（RAIMOND）

面向军事作战需求开发的人工智能（RAIMOND）

专知会员服务

3+阅读 · 4月12日

检测算法战：一个识别军事行动中人工智能特征的框架

检测算法战：一个识别军事行动中人工智能特征的框架

专知会员服务

1+阅读 · 4月12日

软件定义多域战术网络：基础与未来方向（综述）

软件定义多域战术网络：基础与未来方向（综述）

专知会员服务

4+阅读 · 4月12日

水下战战术决策中的气象与海洋预报（50页报告）

水下战战术决策中的气象与海洋预报（50页报告）

专知会员服务

1+阅读 · 4月12日

远程空中优势：新一代超视距导弹的兴起

远程空中优势：新一代超视距导弹的兴起

专知会员服务

1+阅读 · 4月12日

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

0+阅读 · 4月12日

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

专知会员服务

0+阅读 · 4月12日

大语言模型与国防战略：升级风险与国家安全挑战（综述）

大语言模型与国防战略：升级风险与国家安全挑战（综述）

专知会员服务

7+阅读 · 4月12日

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

专知会员服务

10+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第二部分

以机器速度作战：人工智能与美陆军反火力作战——第二部分

专知会员服务

8+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第一部分

以机器速度作战：人工智能与美陆军反火力作战——第一部分

专知会员服务

7+阅读 · 4月11日

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

6+阅读 · 4月11日

相关VIP内容

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

【干货书】有限样本学习-元学习及其在通信系统中的应用，134页pdf，

【干货书】有限样本学习-元学习及其在通信系统中的应用，134页pdf，

专知会员服务

59+阅读 · 2022年10月8日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【伯克利】元学习的元基线，A New Meta-Baseline for Few-Shot Learning

【伯克利】元学习的元基线，A New Meta-Baseline for Few-Shot Learning

专知会员服务

67+阅读 · 2020年3月28日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

面向军事作战需求开发的人工智能（RAIMOND）

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

最新“指挥控制”领域出版物合集（简介）

相关资讯

【开放书】清华大学《语音识别基本法》，215页pdf

【开放书】清华大学《语音识别基本法》，215页pdf

专知

10+阅读 · 2020年7月29日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

元学习—Meta Learning的兴起

元学习—Meta Learning的兴起

专知

44+阅读 · 2019年10月19日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

云栖社区

22+阅读 · 2019年4月6日

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

AI科技评论

14+阅读 · 2018年4月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Arxiv

0+阅读 · 3月6日

Prototype-Based Disentanglement for Controllable Dysarthric Speech Synthesis

Arxiv

0+阅读 · 2月19日

RosettaSpeech: Zero-Shot Speech-to-Speech Translation without Parallel Speech

Arxiv

0+阅读 · 2月15日

Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR

Arxiv

0+阅读 · 2月13日

Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling

Arxiv

0+阅读 · 2月11日

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Speech Emotion Recognition Leveraging OpenAI's Whisper Representations and Attentive Pooling Methods

Arxiv

0+阅读 · 2月5日

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Arxiv

0+阅读 · 2月4日

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

Arxiv

0+阅读 · 2月3日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下基于多源数据协同的个性化服务关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员