Parallel Layer Normalization for Universal Approximation - 专知论文

会员服务 ·

0

归一化 · 并行 · 分析 · 包含 · RNN ·

Parallel Layer Normalization for Universal Approximation

翻译：并行层归一化的通用逼近能力研究

Yunhao Ni,Yuxin Guo,Yuhe Liu,Wenxin Sun,Jie Luo,Wenjun Wu,Lei Huang

from arxiv, 45 pages

This paper studies the approximation capabilities of neural networks that combine layer normalization (LN) with linear layers. We prove that networks consisting of two linear layers with parallel layer normalizations (PLNs) inserted between them (referred to as PLN-Nets) achieve universal approximation, whereas architectures that use only standard LN exhibit strictly limited expressive power.We further analyze approximation rates of shallow and deep PLN-Nets under the $L^\infty$ norm as well as in Sobolev norms. Our analysis extends beyond LN to RMSNorm, and from standard MLPs to position-wise feed-forward networks, the core building blocks used in RNNs and Transformers.Finally, we provide empirical experiments to explore other possible potentials of PLN-Nets.

翻译：本文研究了结合层归一化(LN)与线性层的神经网络的逼近能力。我们证明了由两个线性层组成、并在其间插入并行层归一化(PLN)的网络(称为PLN-Net)能够实现通用逼近，而仅使用标准LN的架构则表现出严格受限的表达能力。我们进一步分析了浅层和深层PLN-Net在$L^\infty$范数及Sobolev范数下的逼近速率。我们的分析不仅适用于LN，还扩展至RMSNorm；不仅涵盖标准MLP，还包含RNN和Transformer中使用的核心构建模块——逐位置前馈网络。最后，我们通过实证实验探索了PLN-Net的其他潜在优势。

0

相关内容

归一化

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知会员服务

98+阅读 · 2022年11月25日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

专知会员服务

23+阅读 · 2021年11月9日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

最新《大间隔学习》综述论文，清华大学张长水老师等

专知会员服务

19+阅读 · 2021年4月3日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【AAAI2020-清华大学】高效的异构协同过滤推荐（Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation），张敏，马少平等

【AAAI2020-清华大学】高效的异构协同过滤推荐（Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation），张敏，马少平等

专知会员服务

61+阅读 · 2019年11月22日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【总结】强化学习需要批归一化(Batch Norm)吗？

【总结】强化学习需要批归一化(Batch Norm)吗？

深度强化学习实验室

28+阅读 · 2020年10月8日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【论文笔记】具有可微分池化的分层图表示学习

【论文笔记】具有可微分池化的分层图表示学习

专知

47+阅读 · 2019年11月11日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

专知

50+阅读 · 2019年6月7日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

相容幂domain结构与函数逼近结构相关问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

Arxiv

0+阅读 · 3月11日

Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition

Arxiv

0+阅读 · 2月25日

Efficient Opportunistic Approachability

Arxiv

0+阅读 · 2月24日

The Hidden Power of Normalization Layers in Neural Networks: Exponential Capacity Control

Arxiv

0+阅读 · 2月22日

Unifying approach to uniform expressivity of graph neural networks

Arxiv

0+阅读 · 2月20日

A unified theory of feature learning in RNNs and DNNs

Arxiv

0+阅读 · 2月17日

A Graphop Analysis of Graph Neural Networks on Sparse Graphs: Generalization and Universal Approximation

Arxiv

0+阅读 · 2月9日

Dense Neural Networks are not Universal Approximators

Arxiv

0+阅读 · 2月7日

Universal Approximation of Continuous Functionals on Compact Subsets via Linear Measurements and Scalar Nonlinearities

Arxiv

0+阅读 · 2月3日

Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

1+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

1+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

14+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知会员服务

98+阅读 · 2022年11月25日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

专知会员服务

23+阅读 · 2021年11月9日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

最新《大间隔学习》综述论文，清华大学张长水老师等

专知会员服务

19+阅读 · 2021年4月3日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【AAAI2020-清华大学】高效的异构协同过滤推荐（Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation），张敏，马少平等

【AAAI2020-清华大学】高效的异构协同过滤推荐（Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation），张敏，马少平等

专知会员服务

61+阅读 · 2019年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【总结】强化学习需要批归一化(Batch Norm)吗？

【总结】强化学习需要批归一化(Batch Norm)吗？

深度强化学习实验室

28+阅读 · 2020年10月8日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【论文笔记】具有可微分池化的分层图表示学习

【论文笔记】具有可微分池化的分层图表示学习

专知

47+阅读 · 2019年11月11日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

专知

50+阅读 · 2019年6月7日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

相关论文

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

Arxiv

0+阅读 · 3月11日

Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition

Arxiv

0+阅读 · 2月25日

Efficient Opportunistic Approachability

Arxiv

0+阅读 · 2月24日

The Hidden Power of Normalization Layers in Neural Networks: Exponential Capacity Control

Arxiv

0+阅读 · 2月22日

Unifying approach to uniform expressivity of graph neural networks

Arxiv

0+阅读 · 2月20日

A unified theory of feature learning in RNNs and DNNs

Arxiv

0+阅读 · 2月17日

A Graphop Analysis of Graph Neural Networks on Sparse Graphs: Generalization and Universal Approximation

Arxiv

0+阅读 · 2月9日

Dense Neural Networks are not Universal Approximators

Arxiv

0+阅读 · 2月7日

Universal Approximation of Continuous Functionals on Compact Subsets via Linear Measurements and Scalar Nonlinearities

Arxiv

0+阅读 · 2月3日

Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models

Arxiv

0+阅读 · 2月3日

相关基金

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

相容幂domain结构与函数逼近结构相关问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员