When factorized approximations are used for variational inference (VI), they tend to underestimate the uncertainty -- as measured in various ways -- of the distributions they are meant to approximate. We consider two popular ways to measure the uncertainty deficit of VI: (i) the degree to which it underestimates the componentwise variance, and (ii) the degree to which it underestimates the entropy. To better understand these effects, and the relationship between them, we examine an informative setting where they can be explicitly (and elegantly) analyzed: the approximation of a Gaussian,~$p$, with a dense covariance matrix, by a Gaussian,~$q$, with a diagonal covariance matrix. We prove that $q$ always underestimates both the componentwise variance and the entropy of $p$, \textit{though not necessarily to the same degree}. Moreover we demonstrate that the entropy of $q$ is determined by the trade-off of two competing forces: it is decreased by the shrinkage of its componentwise variances (our first measure of uncertainty) but it is increased by the factorized approximation which delinks the nodes in the graphical model of $p$. We study various manifestations of this trade-off, notably one where, as the dimension of the problem grows, the per-component entropy gap between $p$ and $q$ becomes vanishingly small even though $q$ underestimates every componentwise variance by a constant multiplicative factor. We also use the shrinkage-delinkage trade-off to bound the entropy gap in terms of the problem dimension and the condition number of the correlation matrix of $p$. Finally we present empirical results on both Gaussian and non-Gaussian targets, the former to validate our analysis and the latter to explore its limitations.


翻译:当使用因子化近似进行变分推断(VI)时,这些近似往往会在多个度量维度上低估其所要逼近分布的置信度。我们探讨了两种常用的VI置信度不足评估指标:(i)对分量方差低估的程度,以及(ii)对熵低估的程度。为深入理解这些效应及其相互关系,我们研究了一个可进行显式(且优雅)分析的信息化场景:用具有对角协方差矩阵的高斯分布~$q$,去逼近具有稠密协方差矩阵的高斯分布~$p$。我们证明$q$总是同时低估$p$的分量方差和熵,\textit{但二者的低估程度未必相同}。此外,我们揭示$q$的熵取决于两种竞争力量的权衡:分量方差收缩(第一个置信度度量指标)会降低熵,而因子化近似通过解耦$p$图模型中的节点则会提高熵。我们研究了这种权衡的多种表现形式,特别值得注意的是:当问题维度增加时,即使$q$以恒定倍数因子低估每个分量方差,$p$与$q$之间每分量的熵差仍趋近于零。我们还利用收缩-解耦权衡,通过问题维度和$p$的相关系数矩阵条件数来界定熵差。最后,我们在高斯和非高斯目标分布上给出了实验结果,前者用于验证分析,后者用于探索分析的局限性。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2021年4月2日
专知会员服务
45+阅读 · 2020年12月18日
专知会员服务
52+阅读 · 2020年12月14日
神经网络高斯过程 (Neural Network Gaussian Process)
PaperWeekly
0+阅读 · 2022年11月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
18+阅读 · 2019年2月2日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月10日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关资讯
神经网络高斯过程 (Neural Network Gaussian Process)
PaperWeekly
0+阅读 · 2022年11月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
18+阅读 · 2019年2月2日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员