We propose a parameter sharing method for Transformers (Vaswani et al., 2017). The proposed approach relaxes a widely used technique, which shares parameters for one layer with all layers such as Universal Transformers (Dehghani et al., 2019), to increase the efficiency in the computational time. We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign parameters to each layer. Experimental results show that the proposed strategies are efficient in the parameter size and computational time. Moreover, we indicate that the proposed strategies are also effective in the configuration where we use many training data such as the recent WMT competition.


翻译:我们为变换器提出了一种参数共享方法(Vaswani等人,2017年)。拟议方法放宽了一种广泛使用的技术,即与通用变换器等所有层共享一个层的参数(Dehghani等人,2019年),以提高计算时间的效率。我们提出了三种战略:序列、循环和周期(rev),为每个层指定参数。实验结果显示,拟议战略在参数大小和计算时间方面是有效的。此外,我们指出,拟议战略在配置中也是有效的,我们使用了许多培训数据,例如最近的WMT竞赛。

1
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
【干货书】'Mastering Go 第二版中文版',143页pdf
专知会员服务
49+阅读 · 2020年11月1日
专知会员服务
61+阅读 · 2020年3月19日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
1+阅读 · 2021年10月29日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
3+阅读 · 2018年11月19日
Arxiv
29+阅读 · 2017年12月6日
VIP会员
最新内容
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
0+阅读 · 今天3:58
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
3+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
4+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
12+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
4+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
3+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
【干货书】'Mastering Go 第二版中文版',143页pdf
专知会员服务
49+阅读 · 2020年11月1日
专知会员服务
61+阅读 · 2020年3月19日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Arxiv
1+阅读 · 2021年10月29日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
3+阅读 · 2018年11月19日
Arxiv
29+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员