λ-GELU: Learning Gating Hardness for Controlled ReLU-ization in Deep Networks - 专知论文

会员服务 ·

0

λ-GELU: Learning Gating Hardness for Controlled ReLU-ization in Deep Networks

翻译：λ-GELU：学习门控硬度以实现深度网络中的受控ReLU化

Cristian Pérez-Corral,Alberto Fernández-Hernández,Jose I. Mestre,Manuel F. Dolz,Enrique S. Quintana-Ortí

Gaussian Error Linear Unit (GELU) is a widely used smooth alternative to Rectifier Linear Unit (ReLU), yet many deployment, compression, and analysis toolchains are most naturally expressed for piecewise-linear (ReLU-type) networks. We study a hardness-parameterized formulation of GELU, f(x;λ)=xΦ(λ x), where Φ is the Gaussian CDF and λ \in [1, infty) controls gate sharpness, with the goal of turning smooth gated training into a controlled path toward ReLU-compatible models. Learning λ is non-trivial: naive updates yield unstable dynamics and effective gradient attenuation, so we introduce a constrained reparameterization and an optimizer-aware update scheme. Empirically, across a diverse set of model--dataset pairs spanning MLPs, CNNs, and Transformers, we observe structured layerwise hardness profiles and assess their robustness under different initializations. We further study a deterministic ReLU-ization strategy in which the learned gates are progressively hardened toward a principled target, enabling a post-training substitution of λ-GELU by ReLU with reduced disruption. Overall, λ-GELU provides a minimal and interpretable knob to profile and control gating hardness, bridging smooth training with ReLU-centric downstream pipelines.

翻译：高斯误差线性单元(Gaussian Error Linear Unit, GELU)是一种广泛使用的整流线性单元(ReLU)的光滑替代方案，然而许多部署、压缩和分析工具链最自然地适用于分段线性(ReLU型)网络。我们研究了GELU的一种硬度参数化形式f(x;λ)=xΦ(λ x)，其中Φ是高斯累积分布函数，λ ∈ [1, ∞)控制门控锐度，目标是将光滑门控训练转变为通向ReLU兼容模型的受控路径。学习λ并非易事：朴素更新会导致不稳定的动态和有效的梯度衰减，因此我们引入了一种约束重参数化和优化器感知的更新方案。在涵盖MLP、CNN和Transformer的多种模型-数据集对上的实验表明，我们观察到了结构化的逐层硬度分布，并评估了它们在不同初始化下的鲁棒性。我们进一步研究了一种确定性ReLU化策略，其中学习到的门控逐渐朝向一个原则性目标硬化，从而能够在训练后将λ-GELU替换为ReLU，并减少性能破坏。总体而言，λ-GELU提供了一种最小且可解释的旋钮来分析和控制门控硬度，连接了光滑训练与以ReLU为中心的下游流水线。

0

相关内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知会员服务

40+阅读 · 2022年10月31日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【CVPR2020-百度】用于视觉识别的门控信道变换

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

三次简化一张图：一招理解LSTM/GRU门控机制

三次简化一张图：一招理解LSTM/GRU门控机制

机器之心

16+阅读 · 2018年12月18日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

复现一篇深度强化学习论文之后，我学到了什么

复现一篇深度强化学习论文之后，我学到了什么

论智

16+阅读 · 2018年4月11日

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

晶格匹配InAlN/GaN HEMT肖特基栅极泄漏电流的退化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

HiPreNets: High-Precision Neural Networks through Progressive Training

Arxiv

0+阅读 · 4月17日

Geminet: Learning the Duality-based Iterative Process for Lightweight Traffic Engineering in Changing Topologies

Arxiv

0+阅读 · 4月15日

Deep Learning using Rectified Linear Units (ReLU)

Arxiv

0+阅读 · 4月14日

Sharp description of local minima in the loss landscape of high-dimensional two-layer ReLU neural networks

Arxiv

0+阅读 · 4月10日

Hyperfastrl: Hypernetwork-based reinforcement learning for unified control of parametric chaotic PDEs

Arxiv

0+阅读 · 4月7日

HYLU: Hybrid Parallel Sparse LU Factorization

Arxiv

0+阅读 · 4月1日

ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Arxiv

0+阅读 · 3月18日

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Arxiv

0+阅读 · 3月9日

Lagom: Unleashing the Power of Communication and Computation Overlapping for Distributed LLM Training

Arxiv

0+阅读 · 2月24日

Robustness of Deep ReLU Networks to Misclassification of High-Dimensional Data

Arxiv

0+阅读 · 2月21日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

1+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

1+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

4+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

5+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

5+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

5+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

6+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

6+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

6+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知会员服务

40+阅读 · 2022年10月31日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【CVPR2020-百度】用于视觉识别的门控信道变换

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

三次简化一张图：一招理解LSTM/GRU门控机制

三次简化一张图：一招理解LSTM/GRU门控机制

机器之心

16+阅读 · 2018年12月18日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

复现一篇深度强化学习论文之后，我学到了什么

复现一篇深度强化学习论文之后，我学到了什么

论智

16+阅读 · 2018年4月11日

相关论文

HiPreNets: High-Precision Neural Networks through Progressive Training

Arxiv

0+阅读 · 4月17日

Geminet: Learning the Duality-based Iterative Process for Lightweight Traffic Engineering in Changing Topologies

Arxiv

0+阅读 · 4月15日

Deep Learning using Rectified Linear Units (ReLU)

Arxiv

0+阅读 · 4月14日

Sharp description of local minima in the loss landscape of high-dimensional two-layer ReLU neural networks

Arxiv

0+阅读 · 4月10日

Hyperfastrl: Hypernetwork-based reinforcement learning for unified control of parametric chaotic PDEs

Arxiv

0+阅读 · 4月7日

HYLU: Hybrid Parallel Sparse LU Factorization

Arxiv

0+阅读 · 4月1日

ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Arxiv

0+阅读 · 3月18日

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Arxiv

0+阅读 · 3月9日

Lagom: Unleashing the Power of Communication and Computation Overlapping for Distributed LLM Training

Arxiv

0+阅读 · 2月24日

Robustness of Deep ReLU Networks to Misclassification of High-Dimensional Data

Arxiv

0+阅读 · 2月21日

相关基金

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

晶格匹配InAlN/GaN HEMT肖特基栅极泄漏电流的退化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于臭氧技术的Ge基高介电常数栅介质MOS器件的基础研究：界面特性、栅电荷分布及起源、迁移率散射机制

国家自然科学基金

0+阅读 · 2015年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员