State-of-the-art neural language models (LMs) represented by Transformers are highly complex. Their use of fixed, deterministic parameter estimates fail to account for model uncertainty and lead to over-fitting and poor generalization when given limited training data. In order to address these issues, this paper proposes a full Bayesian learning framework for Transformer LM estimation. Efficient variational inference based approaches are used to estimate the latent parameter posterior distributions associated with different parts of the Transformer model architecture including multi-head self-attention, feed forward and embedding layers. Statistically significant word error rate (WER) reductions up to 0.5\% absolute (3.18\% relative) and consistent perplexity gains were obtained over the baseline Transformer LMs on state-of-the-art Switchboard corpus trained LF-MMI factored TDNN systems with i-Vector speaker adaptation. Performance improvements were also obtained on a cross domain LM adaptation task requiring porting a Transformer LM trained on the Switchboard and Fisher data to a low-resource DementiaBank elderly speech corpus.


翻译:为了解决这些问题,本文件建议为变异器LM估算一个完整的巴伊西亚学习框架。基于高效的变异推论的方法用于估计与变异器模型结构不同部分相关的潜在参数后部分布,包括多头自留、前进和嵌入层。在经过有限培训的FLM-MMI测算的FLM-MMI测算器基准变换器系统上,取得了显著的字差率(WER)降幅高达0.5 ⁇ 绝对值(3.18 ⁇ 相对值)和一致的两难性增益。在需要将开关机和渔业数据移植到低资源DementiaBank老年人语音系统的跨域LM适应任务上,也取得了绩效改进。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
迁移学习简明教程,11页ppt
专知会员服务
109+阅读 · 2020年8月4日
【教程】自然语言处理中的迁移学习原理,41 页PPT
专知会员服务
96+阅读 · 2020年2月8日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
ICML2019:Google和Facebook在推进哪些方向?
专知
5+阅读 · 2019年6月13日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
最新内容
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
4+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
2+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
2+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
3+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
16+阅读 · 4月25日
多智能体协作机制
专知会员服务
14+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
ICML2019:Google和Facebook在推进哪些方向?
专知
5+阅读 · 2019年6月13日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员