The $β$-VAE is a foundational framework for unsupervised disentanglement, using $β$ to regulate the trade-off between latent factorization and reconstruction fidelity. Empirically, however, disentanglement performance exhibits a pervasive non-monotonic trend: benchmarks such as MIG and SAP typically peak at intermediate $β$ and collapse as regularization increases. We demonstrate that this collapse is a fundamental information-theoretic failure, where strong Kullback-Leibler pressure promotes marginal independence at the expense of the latent channel's semantic informativeness. By formalizing this mechanism in a linear-Gaussian setting, we prove that for $β> 1$, stationarity-induced dynamics trigger a spectral contraction of the encoder gain, driving latent-factor mutual information to zero. To resolve this, we introduce the $λβ$-VAE, which decouples regularization pressure from informational collapse via an auxiliary $L_2$ reconstruction penalty $λ$. Extensive experiments on dSprites, Shapes3D, and MPI3D-real confirm that $λ> 0$ stabilizes disentanglement and restores latent informativeness over a significantly broader range of $β$, providing a principled theoretical justification for dual-parameter regularization in variational inference backbones.


翻译:β-VAE是无监督解缠学习的基础框架,通过β参数调节潜在因子分解与重构保真度之间的权衡。然而实验表明,解缠性能普遍呈现非单调趋势:MIG和SAP等基准指标通常在中等β值时达到峰值,随后随正则化强度增加而崩溃。我们证明这种崩溃本质上是信息论层面的失效——过强的Kullback-Leibler约束以牺牲潜在通道语义信息量为代价,强制促成了边际独立性。通过在线性高斯场景中形式化该机制,我们证明当β>1时,稳态诱导的动力学会触发编码器增益的谱收缩,驱使潜在因子互信息归零。为解决此问题,我们提出λβ-VAE,通过引入辅助L2重构惩罚项λ将正则化压力与信息坍缩解耦。在dSprites、Shapes3D和MPI3D-real数据集上的大量实验证实,λ>0能稳定解缠过程并在更宽广的β值范围内保持潜在信息量,为变分推断主干网络中的双参数正则化提供了严谨的理论依据。

0
下载
关闭预览

相关内容

可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
【NeurIPS2022】时序解纠缠表示学习
专知会员服务
23+阅读 · 2022年10月30日
机器学习损失函数概述,Loss Functions in Machine Learning
专知会员服务
84+阅读 · 2022年3月19日
专知会员服务
19+阅读 · 2021年9月19日
专知会员服务
44+阅读 · 2021年7月1日
【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习
专知会员服务
37+阅读 · 2021年3月28日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
深度 | 变分自编码器VAE面临的挑战与发展方向
机器之心
16+阅读 · 2018年3月21日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
深度 | 变分自编码器VAE面临的挑战与发展方向
机器之心
16+阅读 · 2018年3月21日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员