Multi-task learning with an unbalanced data distribution skews model learning towards high resource tasks, especially when model capacity is fixed and fully shared across all tasks. Sparse scaling architectures, such as BASELayers, provide flexible mechanisms for different tasks to have a variable number of parameters, which can be useful to counterbalance skewed data distributions. We find that that sparse architectures for multilingual machine translation can perform poorly out of the box, and propose two straightforward techniques to mitigate this - a temperature heating mechanism and dense pre-training. Overall, these methods improve performance on two multilingual translation benchmarks compared to standard BASELayers and Dense scaling baselines, and in combination, more than 2x model convergence speed.


翻译:多任务学习,以不平衡的数据分配模式为主,学习高资源任务,特别是当模型能力固定下来,在所有任务中充分共享时,尤其如此。诸如BASELayers等粗糙的缩放结构为不同任务提供了灵活的机制,以拥有可变参数,这可能有助于抵消偏斜的数据分布。我们发现,多语种机器翻译的稀疏结构可能表现不佳,并提出了两种简单易懂的缓解技术 — — 温度加热机制和密集的训练前技术。总的来说,与标准的BASELayers和Dense缩放基线相比,这些方法提高了两个多语种翻译基准的绩效,并结合了超过2x模式的趋同速度。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年12月14日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
8+阅读 · 2018年1月30日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员