In classification tasks, softmax functions are ubiquitously used as output activations to produce predictive probabilities. Such outputs only capture aleatoric uncertainty. To capture epistemic uncertainty, approximate Gaussian inference methods have been proposed. We develop a common formalism to describe such methods, which we view as outputting Gaussian distributions over the logit space. Predictives are then obtained as the expectations of the Gaussian distributions pushed forward through the softmax. However, such softmax Gaussian integrals cannot be solved analytically, and Monte Carlo (MC) approximations can be costly and noisy. We propose to replace the softmax activation by element-wise normCDF or sigmoid, which allows for the accurate sampling-free approximation of predictives. This also enables the approximation of the Gaussian pushforwards by Dirichlet distributions with moment matching. This approach entirely eliminates the runtime and memory overhead associated with MC sampling. We evaluate it combined with several approximate Gaussian inference methods (Laplace, HET, SNGP) on large- and small-scale datasets (ImageNet, CIFAR-100, CIFAR-10), demonstrating improved uncertainty quantification capabilities compared to softmax MC sampling. Our code is available at https://github.com/bmucsanyi/probit.


翻译:在分类任务中,softmax函数被普遍用作输出激活函数以生成预测概率。此类输出仅能捕捉偶然不确定性。为捕捉认知不确定性,研究者提出了多种近似高斯推断方法。我们建立了一个统一的数学形式来描述这类方法,将其视为在logit空间上输出高斯分布。预测分布则通过将高斯分布经softmax前推后取期望获得。然而,此类softmax高斯积分无法解析求解,而蒙特卡洛(MC)近似方法往往计算成本高昂且噪声显著。我们提出使用逐元素的normCDF或sigmoid函数替代softmax激活,这使得无需采样的精确预测分布近似成为可能。该方法还可通过矩匹配将高斯前推分布近似为狄利克雷分布。这一方案完全消除了MC采样带来的运行时与内存开销。我们将其与多种近似高斯推断方法(Laplace、HET、SNGP)结合,在大规模与小规模数据集(ImageNet、CIFAR-100、CIFAR-10)上进行评估,结果表明相较于softmax MC采样,该方法在不确定性量化能力方面具有显著提升。代码已发布于https://github.com/bmucsanyi/probit。

0
下载
关闭预览

相关内容

【NeurIPS 2020】近似推断进展,272页ppt
专知会员服务
33+阅读 · 2020年12月11日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月10日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 1月31日
VIP会员
最新内容
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
2+阅读 · 53分钟前
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
3+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
3+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
5+阅读 · 4月22日
相关VIP内容
【NeurIPS 2020】近似推断进展,272页ppt
专知会员服务
33+阅读 · 2020年12月11日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员