This paper studies the approximation capabilities of neural networks that combine layer normalization (LN) with linear layers. We prove that networks consisting of two linear layers with parallel layer normalizations (PLNs) inserted between them (referred to as PLN-Nets) achieve universal approximation, whereas architectures that use only standard LN exhibit strictly limited expressive power.We further analyze approximation rates of shallow and deep PLN-Nets under the $L^\infty$ norm as well as in Sobolev norms. Our analysis extends beyond LN to RMSNorm, and from standard MLPs to position-wise feed-forward networks, the core building blocks used in RNNs and Transformers.Finally, we provide empirical experiments to explore other possible potentials of PLN-Nets.


翻译:本文研究了结合层归一化(LN)与线性层的神经网络的逼近能力。我们证明了由两个线性层组成、并在其间插入并行层归一化(PLN)的网络(称为PLN-Net)能够实现通用逼近,而仅使用标准LN的架构则表现出严格受限的表达能力。我们进一步分析了浅层和深层PLN-Net在$L^\infty$范数及Sobolev范数下的逼近速率。我们的分析不仅适用于LN,还扩展至RMSNorm;不仅涵盖标准MLP,还包含RNN和Transformer中使用的核心构建模块——逐位置前馈网络。最后,我们通过实证实验探索了PLN-Net的其他潜在优势。

0
下载
关闭预览

相关内容

【2022新书】深度学习归一化技术,117页pdf
专知会员服务
98+阅读 · 2022年11月25日
专知会员服务
19+阅读 · 2021年4月3日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
【2022新书】深度学习归一化技术,117页pdf
专知
29+阅读 · 2022年11月25日
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
28+阅读 · 2020年10月8日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月23日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员