Understanding how neural networks transform inputs into outputs is crucial for interpreting and manipulating their behavior. Most existing approaches analyze internal representations by identifying hidden-layer activation patterns correlated with human-interpretable concepts. Here we take a direct approach to examine how hidden neurons act to drive network outputs. We introduce CODEC (Contribution Decomposition), a method that uses sparse autoencoders to decompose network behavior into sparse motifs of hidden-neuron contributions, revealing causal processes that cannot be determined by analyzing activations alone. Applying CODEC to benchmark image-classification networks, we find that contributions grow in sparsity and dimensionality across layers and, unexpectedly, that they progressively decorrelate positive and negative effects on network outputs. We further show that decomposing contributions into sparse modes enables greater control and interpretation of intermediate layers, supporting both causal manipulations of network output and human-interpretable visualizations of distinct image components that combine to drive that output. Finally, by analyzing state-of-the-art models of neural activity in the vertebrate retina, we demonstrate that CODEC uncovers combinatorial actions of model interneurons and identifies the sources of dynamic receptive fields. Overall, CODEC provides a rich and interpretable framework for understanding how nonlinear computations evolve across hierarchical layers, establishing contribution modes as an informative unit of analysis for mechanistic insights into artificial neural networks.


翻译:理解神经网络如何将输入转化为输出对于解释和操纵其行为至关重要。现有方法大多通过识别与人类可解释概念相关的隐藏层激活模式来分析内部表征。本文采用直接方法研究隐藏神经元如何驱动网络输出。我们提出CODEC(贡献分解)方法,该方法利用稀疏自编码器将网络行为分解为隐藏神经元贡献的稀疏基元,从而揭示仅通过分析激活无法确定的因果过程。将CODEC应用于基准图像分类网络时,我们发现贡献在跨层中呈现稀疏性和维度增长,且出人意料的是,它们逐渐解耦了对网络输出的正负效应。我们进一步证明,将贡献分解为稀疏模态能够增强对中间层的控制和解释,既支持对网络输出的因果操纵,也能对人类可解释的不同图像组件进行可视化展示——这些组件共同驱动了网络输出。最后,通过分析脊椎动物视网膜神经活动的最先进模型,我们证明CODEC能够揭示模型中间神经元的组合作用,并识别动态感受野的来源。总体而言,CODEC为理解非线性计算如何在层级结构中演化提供了丰富且可解释的框架,确立了贡献模态作为分析单元的价值,为人工神经网络的机制性研究提供了新的见解。

0
下载
关闭预览

相关内容

自解释神经网络的全面综述
专知会员服务
19+阅读 · 2025年1月28日
卷积神经网络的可解释性研究综述
专知会员服务
90+阅读 · 2023年6月5日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
221+阅读 · 2020年10月8日
【MIT】理解深度学习网络里单个神经元的作用
专知会员服务
29+阅读 · 2020年9月12日
卷积神经网络数学原理解析
算法与数学之美
20+阅读 · 2019年8月23日
神经网络常微分方程 (Neural ODEs) 解析
AI科技评论
42+阅读 · 2019年8月9日
深入卷积神经网络背后的数学原理
人工智能学家
10+阅读 · 2019年4月26日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
神经网络bp算法推导
统计学习与视觉计算组
11+阅读 · 2017年11月17日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2月19日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
20+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关资讯
卷积神经网络数学原理解析
算法与数学之美
20+阅读 · 2019年8月23日
神经网络常微分方程 (Neural ODEs) 解析
AI科技评论
42+阅读 · 2019年8月9日
深入卷积神经网络背后的数学原理
人工智能学家
10+阅读 · 2019年4月26日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
神经网络bp算法推导
统计学习与视觉计算组
11+阅读 · 2017年11月17日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员