广义信息瓶颈理论：深度学习的一种新视角 (A Generalized Information Bottleneck Theory of Deep Learning) - 专知论文

会员服务 ·

0

IB · 协同 · 信息瓶颈 · 广义 · 模糊性 ·

A Generalized Information Bottleneck Theory of Deep Learning

翻译：广义信息瓶颈理论：深度学习的一种新视角

Charles Westphal,Stephen Hailes,Mirco Musolesi

The Information Bottleneck (IB) principle offers a compelling theoretical framework to understand how neural networks (NNs) learn. However, its practical utility has been constrained by unresolved theoretical ambiguities and significant challenges in accurate estimation. In this paper, we present a \textit{Generalized Information Bottleneck (GIB)} framework that reformulates the original IB principle through the lens of synergy, i.e., the information obtainable only through joint processing of features. We provide theoretical and empirical evidence demonstrating that synergistic functions achieve superior generalization compared to their non-synergistic counterparts. Building on these foundations we re-formulate the IB using a computable definition of synergy based on the average interaction information (II) of each feature with those remaining. We demonstrate that the original IB objective is upper bounded by our GIB in the case of perfect estimation, ensuring compatibility with existing IB theory while addressing its limitations. Our experimental results demonstrate that GIB consistently exhibits compression phases across a wide range of architectures (including those with \textit{ReLU} activations where the standard IB fails), while yielding interpretable dynamics in both CNNs and Transformers and aligning more closely with our understanding of adversarial robustness.

翻译：信息瓶颈（IB）原理为理解神经网络（NNs）的学习机制提供了一个引人注目的理论框架。然而，其实际应用一直受限于未解决的理论模糊性以及准确估计方面的重大挑战。本文提出了一种\textit{广义信息瓶颈（GIB）}框架，该框架通过协同性（即仅通过对特征进行联合处理才能获得的信息）的视角重新阐述了原始IB原理。我们提供了理论和实证证据，证明与非协同性函数相比，协同性函数能实现更优的泛化性能。基于这些基础，我们利用基于每个特征与其余特征的平均交互信息（II）的可计算协同性定义，重新构建了IB。我们证明，在完美估计的情况下，原始IB目标函数受我们的GIB上界约束，从而确保了与现有IB理论的兼容性，同时解决了其局限性。我们的实验结果表明，GIB在多种架构（包括标准IB失效的\textit{ReLU}激活函数架构）中均能一致地表现出压缩阶段，同时在CNN和Transformer中产生可解释的动态特性，并且更贴近我们对于对抗鲁棒性的理解。

0

相关内容

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【阿姆斯特丹博士论文】表示学习中的信息理论

【阿姆斯特丹博士论文】表示学习中的信息理论

专知会员服务

23+阅读 · 2025年7月18日

【ICML2025】学习最优多模态信息瓶颈表示

【ICML2025】学习最优多模态信息瓶颈表示

专知会员服务

11+阅读 · 2025年5月28日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

专知会员服务

98+阅读 · 2022年2月21日

【经典书】从数据中学习，第二版，LEARNING FROM DATA Concepts, Theory, and Methods

专知会员服务

49+阅读 · 2021年9月6日

【经典书】深度学习信息瓶颈理论，135页pdf

专知会员服务

98+阅读 · 2021年8月13日

物理学突破深度学习理论瓶颈？ Google-斯坦福发布《深度学习统计力学》综述论文，30页pdf阐述深度学习成功机制

物理学突破深度学习理论瓶颈？ Google-斯坦福发布《深度学习统计力学》综述论文，30页pdf阐述深度学习成功机制

专知会员服务

108+阅读 · 2020年3月26日

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

专知会员服务

46+阅读 · 2020年1月1日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

量子位

10+阅读 · 2019年7月7日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

机器之心

10+阅读 · 2018年9月6日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

基于信息理论的机器学习

基于信息理论的机器学习

专知

22+阅读 · 2017年11月23日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

Transfer Learning in Infinite Width Feature Learning Networks

Arxiv

0+阅读 · 2月24日

A Generalized Information Bottleneck Method: A Decision-Theoretic Perspective

Arxiv

0+阅读 · 2月20日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月19日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月18日

The geometry of invariant learning: an information-theoretic analysis of data augmentation and generalization

Arxiv

0+阅读 · 2月16日

Statistical Learning Analysis of Physics-Informed Neural Networks

Arxiv

0+阅读 · 2月11日

Information-Theoretic Limits of Quantum Learning via Data Compression

Arxiv

0+阅读 · 2月10日

Training deep physical neural networks with local physical information bottleneck

Arxiv

0+阅读 · 2月10日

GeoIB: Geometry-Aware Information Bottleneck via Statistical-Manifold Compression

Arxiv

0+阅读 · 2月3日

Bandwidth-Efficient Multi-Agent Communication through Information Bottleneck and Vector Quantization

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

2+阅读 · 今天14:34

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

1+阅读 · 今天14:31

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

2+阅读 · 今天14:23

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

1+阅读 · 今天14:19

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

1+阅读 · 今天12:23

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

1+阅读 · 今天12:21

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

1+阅读 · 今天12:13

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

8+阅读 · 今天8:20

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

3+阅读 · 今天7:30

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

6+阅读 · 今天7:28

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

7+阅读 · 今天3:09

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

4+阅读 · 今天2:50

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

5+阅读 · 今天2:08

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

14+阅读 · 今天1:51

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

9+阅读 · 4月15日

相关VIP内容

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【阿姆斯特丹博士论文】表示学习中的信息理论

【阿姆斯特丹博士论文】表示学习中的信息理论

专知会员服务

23+阅读 · 2025年7月18日

【ICML2025】学习最优多模态信息瓶颈表示

【ICML2025】学习最优多模态信息瓶颈表示

专知会员服务

11+阅读 · 2025年5月28日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

信息论揭开深度学习黑匣子？纽约大学Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论

专知会员服务

98+阅读 · 2022年2月21日

【经典书】从数据中学习，第二版，LEARNING FROM DATA Concepts, Theory, and Methods

专知会员服务

49+阅读 · 2021年9月6日

【经典书】深度学习信息瓶颈理论，135页pdf

专知会员服务

98+阅读 · 2021年8月13日

物理学突破深度学习理论瓶颈？ Google-斯坦福发布《深度学习统计力学》综述论文，30页pdf阐述深度学习成功机制

物理学突破深度学习理论瓶颈？ Google-斯坦福发布《深度学习统计力学》综述论文，30页pdf阐述深度学习成功机制

专知会员服务

108+阅读 · 2020年3月26日

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

专知会员服务

46+阅读 · 2020年1月1日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《自动化战略情报管控》

得失评估：审视对伊朗战争的轨迹（简报）

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

相关资讯

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

高赞人气资源！集结数百篇顶会论文，由浅入深让你吃透图深度学习

量子位

10+阅读 · 2019年7月7日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

学界 | 最大化互信息来学习深度表示，Bengio等提出Deep INFOMAX

机器之心

10+阅读 · 2018年9月6日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

基于信息理论的机器学习

基于信息理论的机器学习

专知

22+阅读 · 2017年11月23日

相关论文

Transfer Learning in Infinite Width Feature Learning Networks

Arxiv

0+阅读 · 2月24日

A Generalized Information Bottleneck Method: A Decision-Theoretic Perspective

Arxiv

0+阅读 · 2月20日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月19日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月18日

The geometry of invariant learning: an information-theoretic analysis of data augmentation and generalization

Arxiv

0+阅读 · 2月16日

Statistical Learning Analysis of Physics-Informed Neural Networks

Arxiv

0+阅读 · 2月11日

Information-Theoretic Limits of Quantum Learning via Data Compression

Arxiv

0+阅读 · 2月10日

Training deep physical neural networks with local physical information bottleneck

Arxiv

0+阅读 · 2月10日

GeoIB: Geometry-Aware Information Bottleneck via Statistical-Manifold Compression

Arxiv

0+阅读 · 2月3日

Bandwidth-Efficient Multi-Agent Communication through Information Bottleneck and Vector Quantization

Arxiv

0+阅读 · 2月2日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员