互信息坍缩解释β-VAE中的解缠失败 (Mutual Information Collapse Explains Disentanglement Failure in $β$-VAEs) - 专知论文

会员服务 ·

0

变分自编码 · 潜在 · 互信息 · 正则化 · 因子 ·

Mutual Information Collapse Explains Disentanglement Failure in $β$-VAEs

翻译：互信息坍缩解释β-VAE中的解缠失败

Minh Vu,Xiaoliang Wan,Shuangqing Wei

The $β$-VAE is a foundational framework for unsupervised disentanglement, using $β$ to regulate the trade-off between latent factorization and reconstruction fidelity. Empirically, however, disentanglement performance exhibits a pervasive non-monotonic trend: benchmarks such as MIG and SAP typically peak at intermediate $β$ and collapse as regularization increases. We demonstrate that this collapse is a fundamental information-theoretic failure, where strong Kullback-Leibler pressure promotes marginal independence at the expense of the latent channel's semantic informativeness. By formalizing this mechanism in a linear-Gaussian setting, we prove that for $β> 1$, stationarity-induced dynamics trigger a spectral contraction of the encoder gain, driving latent-factor mutual information to zero. To resolve this, we introduce the $λβ$-VAE, which decouples regularization pressure from informational collapse via an auxiliary $L_2$ reconstruction penalty $λ$. Extensive experiments on dSprites, Shapes3D, and MPI3D-real confirm that $λ> 0$ stabilizes disentanglement and restores latent informativeness over a significantly broader range of $β$, providing a principled theoretical justification for dual-parameter regularization in variational inference backbones.

翻译：β-VAE是无监督解缠学习的基础框架，通过β参数调节潜在因子分解与重构保真度之间的权衡。然而实验表明，解缠性能普遍呈现非单调趋势：MIG和SAP等基准指标通常在中等β值时达到峰值，随后随正则化强度增加而崩溃。我们证明这种崩溃本质上是信息论层面的失效——过强的Kullback-Leibler约束以牺牲潜在通道语义信息量为代价，强制促成了边际独立性。通过在线性高斯场景中形式化该机制，我们证明当β>1时，稳态诱导的动力学会触发编码器增益的谱收缩，驱使潜在因子互信息归零。为解决此问题，我们提出λβ-VAE，通过引入辅助L2重构惩罚项λ将正则化压力与信息坍缩解耦。在dSprites、Shapes3D和MPI3D-real数据集上的大量实验证实，λ>0能稳定解缠过程并在更宽广的β值范围内保持潜在信息量，为变分推断主干网络中的双参数正则化提供了严谨的理论依据。

0

相关内容

变分自编码

变分自编码

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

【NeurIPS2022】时序解纠缠表示学习

【NeurIPS2022】时序解纠缠表示学习

专知会员服务

23+阅读 · 2022年10月30日

机器学习损失函数概述，Loss Functions in Machine Learning

机器学习损失函数概述，Loss Functions in Machine Learning

专知会员服务

84+阅读 · 2022年3月19日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知会员服务

37+阅读 · 2021年3月28日

【FB陈鑫磊-何恺明】SimSiam：消除表征学习“崩溃解”，探寻对比表达学习成功之根源

【FB陈鑫磊-何恺明】SimSiam：消除表征学习“崩溃解”，探寻对比表达学习成功之根源

专知会员服务

20+阅读 · 2020年11月26日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

专知会员服务

20+阅读 · 2020年1月7日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

深度 | 变分自编码器VAE面临的挑战与发展方向

深度 | 变分自编码器VAE面临的挑战与发展方向

机器之心

16+阅读 · 2018年3月21日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

双曲平衡律系统半整体熵解的适定性及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

分数次椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

平面上几类椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

电力网的欠秩问题及其对称分析方法

国家自然科学基金

0+阅读 · 2014年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

矩阵分解问题的优化算法与理论

国家自然科学基金

8+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Tractable downfall of basis pursuit in structured sparse optimization

Arxiv

0+阅读 · 3月14日

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Arxiv

0+阅读 · 3月10日

On LLR Mismatch in Belief Propagation Decoding of Overcomplete QLDPC Codes

Arxiv

0+阅读 · 3月5日

Critical point representation of the mutual information in the sparse stochastic block model

Arxiv

0+阅读 · 3月2日

Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance

Arxiv

0+阅读 · 2月27日

Rethinking Disentanglement under Dependent Factors of Variation

Arxiv

0+阅读 · 2月24日

Multivariate Partial Information Decomposition: Constructions, Inconsistencies, and Alternative Measures

Arxiv

0+阅读 · 2月11日

Connecting phases of matter to the flatness of the loss landscape in analog variational quantum algorithms

Arxiv

0+阅读 · 2月10日

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Arxiv

0+阅读 · 1月31日

Entanglement-Dependent Error Bounds for Hamiltonian Simulation

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

变分自编码

最新内容

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

2+阅读 · 今天14:46

内省扩散语言模型

内省扩散语言模型

专知会员服务

1+阅读 · 今天14:42

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

3+阅读 · 今天13:00

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

2+阅读 · 今天12:48

世界无人无线电情报系统经验分析与实验实现（研究论文）

世界无人无线电情报系统经验分析与实验实现（研究论文）

专知会员服务

3+阅读 · 今天12:44

大规模作战行动中的战术作战评估（研究论文）

大规模作战行动中的战术作战评估（研究论文）

专知会员服务

3+阅读 · 今天12:21

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

3+阅读 · 今天12:13

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

2+阅读 · 今天12:05

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

4+阅读 · 今天11:52

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

18+阅读 · 今天7:12

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

16+阅读 · 今天6:45

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

6+阅读 · 今天6:12

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

6+阅读 · 今天5:49

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

12+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

10+阅读 · 4月13日

相关VIP内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

【NeurIPS2022】时序解纠缠表示学习

【NeurIPS2022】时序解纠缠表示学习

专知会员服务

23+阅读 · 2022年10月30日

机器学习损失函数概述，Loss Functions in Machine Learning

机器学习损失函数概述，Loss Functions in Machine Learning

专知会员服务

84+阅读 · 2022年3月19日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知会员服务

37+阅读 · 2021年3月28日

【FB陈鑫磊-何恺明】SimSiam：消除表征学习“崩溃解”，探寻对比表达学习成功之根源

【FB陈鑫磊-何恺明】SimSiam：消除表征学习“崩溃解”，探寻对比表达学习成功之根源

专知会员服务

20+阅读 · 2020年11月26日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

专知会员服务

20+阅读 · 2020年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

内省扩散语言模型

国外反无人机系统与技术动态

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

美伊停火协议：评估、各方反应及美国会面临的问题

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

深度 | 变分自编码器VAE面临的挑战与发展方向

深度 | 变分自编码器VAE面临的挑战与发展方向

机器之心

16+阅读 · 2018年3月21日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

相关论文

Tractable downfall of basis pursuit in structured sparse optimization

Arxiv

0+阅读 · 3月14日

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Arxiv

0+阅读 · 3月10日

On LLR Mismatch in Belief Propagation Decoding of Overcomplete QLDPC Codes

Arxiv

0+阅读 · 3月5日

Critical point representation of the mutual information in the sparse stochastic block model

Arxiv

0+阅读 · 3月2日

Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance

Arxiv

0+阅读 · 2月27日

Rethinking Disentanglement under Dependent Factors of Variation

Arxiv

0+阅读 · 2月24日

Multivariate Partial Information Decomposition: Constructions, Inconsistencies, and Alternative Measures

Arxiv

0+阅读 · 2月11日

Connecting phases of matter to the flatness of the loss landscape in analog variational quantum algorithms

Arxiv

0+阅读 · 2月10日

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Arxiv

0+阅读 · 1月31日

Entanglement-Dependent Error Bounds for Hamiltonian Simulation

Arxiv

0+阅读 · 1月31日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

双曲平衡律系统半整体熵解的适定性及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

分数次椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

高光谱图像稀疏解混模型及其快速算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

平面上几类椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

电力网的欠秩问题及其对称分析方法

国家自然科学基金

0+阅读 · 2014年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

矩阵分解问题的优化算法与理论

国家自然科学基金

8+阅读 · 2014年12月31日

非Lipschitz优化问题的理论算法研究及其在稀疏解还原问题中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员