We provide evidence that eigenanalysis of the empirical neural tangent kernel (eNTK) can surface the features used by trained neural networks. Across three standard toy models for mechanistic interpretability, Toy Models of Superposition (TMS), a 1-layer MLP trained on modular addition and a 1-layer Transformer trained on modular addition, we find that top eigenspaces of the eNTK align with ground-truth features. In TMS, the eNTK recovers the ground-truth features in both the sparse (high superposition) and dense regimes. In modular arithmetic, the eNTK can be used to recover Fourier feature families. Moreover, we provide evidence that a layerwise eNTK localizes features to specific layers and that the evolution of the eNTK spectrum can be used to diagnose the grokking phase transition. These results suggest that eNTK analysis may provide a practical handle for feature discovery and for detecting phase changes in small models.


翻译:我们提供证据表明,经验神经切核(eNTK)的特征分析能够揭示训练后神经网络所使用的特征。在三个用于机制可解释性的标准玩具模型——叠加玩具模型(TMS)、在模加法上训练的单层MLP以及在模加法上训练的单层Transformer中,我们发现eNTK的顶部特征空间与真实特征对齐。在TMS中,eNTK在稀疏(高叠加)和稠密两种机制下均能恢复真实特征。在模算术中,eNTK可用于恢复傅里叶特征族。此外,我们提供的证据表明,分层eNTK可将特征定位到特定层,并且eNTK谱的演化可用于诊断“顿悟”相变。这些结果表明,eNTK分析可能为特征发现和小型模型中的相变检测提供一种实用的方法。

0
下载
关闭预览

相关内容

图机器学习的核心原理:表征、鲁棒性与泛化性
【NTU博士论文】直推迁移学习的视觉识别,190页pdf
专知会员服务
36+阅读 · 2024年1月5日
专知会员服务
12+阅读 · 2021年5月26日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
掌握图神经网络GNN基本,看这篇文章就够了
新智元
164+阅读 · 2019年2月14日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月12日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
掌握图神经网络GNN基本,看这篇文章就够了
新智元
164+阅读 · 2019年2月14日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员