Understanding simplicity biases in deep learning offers a promising path toward developing reliable AI. A common metric for this, inspired by Boolean function analysis, is average sensitivity, which captures a model's robustness to single-token perturbations. We argue that average sensitivity has two key limitations: it lacks a natural generalization to real-valued domains and fails to explain the "junta-like" input dependence we empirically observe in modern LLMs. To address these limitations, we propose noise stability as a more comprehensive simplicity metric. Noise stability expresses a model's robustness to correlated noise applied to all input coordinates simultaneously. We provide a theoretical analysis of noise stability for single-layer attention and ReLU MLP layers and tackle the multi-layer propagation problem with a covariance interval propagation approach. Building on this theory, we develop a practical noise stability regularization method. Experiments on algorithmic and next-token-prediction tasks show that our regularizer consistently catalyzes grokking and accelerates training by approximately $35\%$ and $75\%$ respectively. Our results sculpt a new connection between signal propagation in neural networks and interpretability, with noise stability emerging as a powerful tool for understanding and improving modern Transformers.


翻译:理解深度学习中的简单性偏置为开发可靠的人工智能提供了一条前景广阔的路径。受布尔函数分析启发,平均敏感度是衡量此特性的常用指标,它捕捉了模型对单令牌扰动的鲁棒性。我们认为平均敏感度存在两个关键局限:它缺乏向实值域的自然推广,并且无法解释我们在现代大语言模型中经验观察到的"类junta"输入依赖性。为应对这些局限,我们提出噪声稳定性作为一种更全面的简单性度量指标。噪声稳定性表达了模型对所有输入坐标同时施加相关噪声的鲁棒性。我们对单层注意力机制和ReLU多层感知机层的噪声稳定性进行了理论分析,并采用协方差区间传播方法处理多层传播问题。基于此理论,我们开发了一种实用的噪声稳定性正则化方法。在算法任务和下一令牌预测任务上的实验表明,我们的正则化器能持续催化顿悟现象,并分别将训练速度提升约$35\%$和$75\%$。我们的研究结果在神经网络信号传播与可解释性之间塑造了新的联系,使噪声稳定性成为理解和改进现代Transformer的强大工具。

0
下载
关闭预览

相关内容

重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
专知会员服务
101+阅读 · 2020年7月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 1月30日
Arxiv
0+阅读 · 1月26日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
专知会员服务
101+阅读 · 2020年7月20日
相关资讯
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员