Differentiable architecture search (DARTS) is successfully applied in many vision tasks. However, directly using DARTS for Transformers is memory-intensive, which renders the search process infeasible. To this end, we propose a multi-split reversible network and combine it with DARTS. Specifically, we devise a backpropagation-with-reconstruction algorithm so that we only need to store the last layer's outputs. By relieving the memory burden for DARTS, it allows us to search with larger hidden size and more candidate operations. We evaluate the searched architecture on three sequence-to-sequence datasets, i.e., WMT'14 English-German, WMT'14 English-French, and WMT'14 English-Czech. Experimental results show that our network consistently outperforms standard Transformers across the tasks. Moreover, our method compares favorably with big-size Evolved Transformers, reducing search computation by an order of magnitude.


翻译:不同的建筑搜索( DARTS) 成功地应用在许多视觉任务中。 但是, 直接使用 DARTS 进行变换是记忆密集的, 这使得搜索进程无法进行。 为此, 我们提出一个多功能可逆网络, 并将其与 DARTS 合并。 具体地说, 我们设计了一个反向转换与重建的算法, 这样我们只需要保存最后一个层的输出。 通过减轻 DARTS 的记忆负担, 它允许我们用更大的隐藏大小和更多的候选操作来搜索。 我们用三个序列到顺序的数据集, 即 WMT' 14 英德、 WMT' 14 英法英法和WMT' 14 英文- 捷克文来评估搜索结构 。 实验结果显示, 我们的网络始终超越了任务中的标准变换器。 此外, 我们的方法比大型变换器要好得多, 将搜索量减少一个数量级。

0
下载
关闭预览

相关内容

最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
27+阅读 · 2020年12月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
专知会员服务
16+阅读 · 2020年7月27日
专知会员服务
61+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
已删除
将门创投
4+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
8+阅读 · 2021年1月28日
Arxiv
8+阅读 · 2020年6月15日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月19日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
7+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
5+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
9+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
4+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
8+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
7+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
6+阅读 · 4月20日
相关VIP内容
最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
27+阅读 · 2020年12月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
专知会员服务
16+阅读 · 2020年7月27日
专知会员服务
61+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
相关资讯
相关论文
Arxiv
8+阅读 · 2021年1月28日
Arxiv
8+阅读 · 2020年6月15日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月19日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
Top
微信扫码咨询专知VIP会员