The choice of activation function plays a crucial role in the optimization and performance of deep neural networks. While the Rectified Linear Unit (ReLU) remains the dominant choice due to its simplicity and effectiveness, its lack of smoothness may hinder gradient-based optimization in deep architectures. In this work we propose a family of $C^{2N}$-smooth activation functions whose gate follows a log-logistic CDF, achieving ReLU-like performance with purely rational arithmetic. We introduce three variants: GEM (the base family), E-GEM (an $ε$-parameterized generalization enabling arbitrary $L^p$-approximation of ReLU), and SE-GEM (a piecewise variant eliminating dead neurons with $C^{2N}$ junction smoothness). An $N$-ablation study establishes $N=1$ as optimal for standard-depth networks, reducing the GELU deficit on CIFAR-100 + ResNet-56 from 6.10% to 2.12%. The smoothness parameter $N$ further reveals a CNN-transformer tradeoff: $N=1$ is preferred for deep CNNs, while $N=2$ is preferred for transformers. On MNIST, E-GEM ties the best baseline (99.23%). On CIFAR-10 + ResNet-56, SE-GEM ($ε=10^{-4}$) surpasses GELU (92.51% vs 92.44%) -- the first GEM-family activation to outperform GELU. On CIFAR-100 + ResNet-56, E-GEM reduces the GELU deficit from 6.10% (GEM $N=2$) to just 0.62%. On GPT-2 (124M), GEM achieves the lowest perplexity (72.57 vs 73.76 for GELU), with GEM $N=1$ also beating GELU (73.32). On BERT-small, E-GEM ($ε=10$) achieves the best validation loss (6.656) across all activations. The $ε$-parameterization reveals a scale-dependent optimum: small $ε$ ($10^{-4}$--$10^{-6}$) for deep CNNs and larger transformers, with the special case of small transformers (BERT-small) benefiting from large $ε$ ($ε=10$) due to its limited depth and unconstrained gradients.


翻译:激活函数的选择对深度神经网络的优化与性能具有关键作用。尽管线性整流单元(ReLU)因其简洁高效仍占据主导地位,但其光滑性缺失可能阻碍深度架构中基于梯度的优化。本文提出一类$C^{2N}$光滑激活函数族,其门控机制遵循逻辑斯蒂累积分布函数,通过纯有理运算实现类ReLU性能。我们引入三种变体:GEM(基础族)、E-GEM(参数化推广允许对ReLU进行任意$L^p$逼近)以及SE-GEM(消除死神经元问题的分段变体,具备$C^{2N}$交界光滑性)。通过N消融实验确定标准深度网络的最优参数为$N=1$,将CIFAR-100+ResNet-56上GELU的性能差距从6.10%降至2.12%。光滑参数$N$进一步揭示卷积神经网络与Transformer的权衡关系:深度CNN优选$N=1$,而Transformer则倾向$N=2$。在MNIST上,E-GEM持平最佳基线(99.23%);在CIFAR-10+ResNet-56上,SE-GEM($ε=10^{-4}$)以92.51%超越GELU的92.44%——首次实现GEM族激活函数超越GELU;在CIFAR-100+ResNet-56上,E-GEM将GELU的性能差距从6.10%(GEM $N=2$)缩减至0.62%。在GPT-2(124M)上,GEM取得最低困惑度(72.57对比GELU的73.76),且GEM $N=1$同样优于GELU(73.32)。在BERT-small上,E-GEM($ε=10$)以6.656的验证损失在所有激活函数中表现最优。参数化$ε$揭示尺度依赖性最优解:深度CNN与大型Transformer适用小$ε$($10^{-4}$--$10^{-6}$),而小型Transformer(如BERT-small)因深度有限且梯度无约束,大$ε$($ε=10$)更优。

0
下载
关闭预览

相关内容

在人工神经网络中,给定一个输入或一组输入,节点的激活函数定义该节点的输出。一个标准集成电路可以看作是一个由激活函数组成的数字网络,根据输入的不同,激活函数可以是开(1)或关(0)。这类似于神经网络中的线性感知器的行为。然而,只有非线性激活函数允许这样的网络只使用少量的节点来计算重要问题,并且这样的激活函数被称为非线性。
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
深度学习算法发展简述,从DNN到Transformer再到ChatGPT
专知会员服务
153+阅读 · 2022年12月22日
几何观点下的深度学习
专知会员服务
36+阅读 · 2022年12月13日
深度学习激活函数全面综述论文
专知会员服务
72+阅读 · 2021年10月1日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
59+阅读 · 2019年11月10日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
干货 | 深入理解深度学习中的激活函数
计算机视觉life
16+阅读 · 2019年1月29日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员