Prior work has attempted to understand the internal structures and functionalities of Transformer-based encoder-decoder architectures on the level of multi-head attention and feed-forward sublayers. Interpretations have focused on the encoder and decoder, along with the combinatorial possibilities of the self-attention, cross-attention, and feed-forward sublayers. However, without examining the low-level structures, one gains limited understanding of the motivation behind sublayer reordering. Could we dive into the sublayer abstraction and permute layer weight matrices to improve the quality of translation? We propose AEIUOrder to greedily reorder layer weight matrices in the encoder by their well-trainedness, as measured by Heavy-Tailed Self-Regularization (HT-SR) metrics, and order the decoder matrices correspondingly. Our results suggest that greedily reordering layer weight matrices to maximize Total well-trainedness facilitates the model to learn representations and generate translations more effectively.


翻译:先前的工作试图从多头注意力和前馈子层的层面理解基于变换器的编码器-解码器架构的内部结构与功能。这些解释聚焦于编码器与解码器,以及自注意力、交叉注意力和前馈子层的组合可能性。然而,若不对底层结构进行审视,便难以深入理解子层重排背后的动机。我们能否深入子层抽象层面,通过置换层权重矩阵来提升翻译质量?我们提出AEIUOrder方法,根据重尾自正则化(HT-SR)指标所衡量的良好训练程度,贪婪地对编码器中的层权重矩阵进行重排序,并相应地对解码器矩阵进行排序。我们的结果表明,通过贪婪地重排层权重矩阵以最大化总体良好训练程度,有助于模型更有效地学习表示并生成翻译。

0
下载
关闭预览

相关内容

NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
51+阅读 · 2022年10月2日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
专知会员服务
29+阅读 · 2021年8月2日
专知会员服务
90+阅读 · 2021年6月29日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
30+阅读 · 2021年8月18日
Arxiv
103+阅读 · 2021年6月8日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
1+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
2+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
2+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
51+阅读 · 2022年10月2日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
专知会员服务
29+阅读 · 2021年8月2日
专知会员服务
90+阅读 · 2021年6月29日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员