We introduce the Similarity-Distance-Magnitude (SDM) activation function, a more robust and interpretable formulation of the standard softmax activation function, adding Similarity (i.e., correctly predicted depth-matches into training) awareness and Distance-to-training-distribution awareness to the existing output Magnitude (i.e., decision-boundary) awareness, and enabling interpretability-by-exemplar via dense matching. We further introduce the SDM estimator, based on a data-driven partitioning of the class-wise empirical CDFs via the SDM activation, to control the class- and prediction-conditional accuracy among selective classifications. When used as the final-layer activation over pre-trained language models for selective classification, the SDM estimator is more robust to co-variate shifts and out-of-distribution inputs than existing calibration methods using softmax activations, while remaining informative over in-distribution data.


翻译:本文提出了相似性-距离-幅度(SDM)激活函数,该函数是对标准softmax激活函数的一种更鲁棒且可解释的改进形式。它在现有输出幅度(即决策边界)感知的基础上,增加了相似性感知(即正确预测的深度匹配融入训练)和到训练分布的距离感知,并通过密集匹配实现了基于范例的可解释性。我们进一步提出了SDM估计器,该方法基于通过SDM激活对类别经验累积分布函数进行数据驱动的划分,以控制选择性分类中的类别条件准确率与预测条件准确率。当在预训练语言模型的最顶层作为激活函数用于选择性分类时,与使用softmax激活的现有校准方法相比,SDM估计器对协变量偏移和分布外输入具有更强的鲁棒性,同时在分布内数据上仍能保持信息有效性。

0
下载
关闭预览

相关内容

在人工神经网络中,给定一个输入或一组输入,节点的激活函数定义该节点的输出。一个标准集成电路可以看作是一个由激活函数组成的数字网络,根据输入的不同,激活函数可以是开(1)或关(0)。这类似于神经网络中的线性感知器的行为。然而,只有非线性激活函数允许这样的网络只使用少量的节点来计算重要问题,并且这样的激活函数被称为非线性。
【ICML2025】从混淆的离线数据中自动构造奖励函数
专知会员服务
9+阅读 · 2025年5月22日
【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
专知会员服务
29+阅读 · 2021年6月7日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
61+阅读 · 2020年6月25日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【ICML2025】从混淆的离线数据中自动构造奖励函数
专知会员服务
9+阅读 · 2025年5月22日
【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
专知会员服务
29+阅读 · 2021年6月7日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
61+阅读 · 2020年6月25日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员