Wide Neural Networks as a Baseline for the Computational No-Coincidence Conjecture

We establish that randomly initialized neural networks, with large width and a natural choice of hyperparameters, have nearly independent outputs exactly when their activation function is nonlinear with zero mean under the Gaussian measure: $\mathbb{E}_{z \sim \mathcal{N}(0,1)}[σ(z)]=0$. For example, this includes ReLU and GeLU with an additive shift, as well as tanh, but not ReLU or GeLU by themselves. Because of their nearly independent outputs, we propose neural networks with zero-mean activation functions as a promising candidate for the Alignment Research Center's computational no-coincidence conjecture -- a conjecture that aims to measure the limits of AI interpretability.

翻译：我们证明，随机初始化的神经网络在宽度较大且超参数选择自然的情况下，当其激活函数在高斯测度下具有零均值非线性特性时，其输出近乎相互独立：$\mathbb{E}_{z \sim \mathcal{N}(0,1)}[σ(z)]=0$。例如，这包括带有附加偏移的ReLU和GeLU，以及tanh函数，但不包括原始ReLU或GeLU。基于其近乎独立的输出特性，我们提出采用零均值激活函数的神经网络作为对齐研究中心"计算无巧合猜想"的理想候选模型——该猜想旨在衡量人工智能可解释性的理论极限。

相关内容

神经网络

关注 5917

人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

【斯坦福博士论文】凸神经网络，Convex neural networks，228页pdf

专知会员服务

53+阅读 · 2023年11月19日

【NeurIPS2023】宽度神经网络作为高斯过程:深度均衡模型的经验教训

专知会员服务

26+阅读 · 2023年10月18日

神经网络宽度是什么？EPFL博士论文《有限宽度神经网络的理论：泛化、缩放定律和损失观》，197页pdf

专知会员服务

35+阅读 · 2023年8月24日