We provide evidence that eigenanalysis of the empirical neural tangent kernel (eNTK) can surface feature directions in trained neural networks. Across three increasingly realistic settings -- a 1-layer MLP trained on modular addition, a 1-layer Transformer trained on modular addition and the pretrained language model Gemma-3-270M -- we show that top eigenspaces of the eNTK align with ground-truth or interpretable features. In the modular arithmetic examples, top eNTK eigenspaces align with the Fourier features used by the MLP and the Fourier features at seed-dependent frequencies used by the Transformer to implement known ground-truth algorithms. Moreover, the alignment of the relevant subspaces evolves over training, with its first derivative peaking near the onset of grokking. For Gemma-3-270M, we compute top eNTK eigendirections on a dataset of TinyStories context windows and check their alignment with an automatically-generated set of parts-of-speech and other grammatical feature directions. We find that the alignment of eNTK eigendirections with grammar features outperforms a same-budget baseline of PCA on model activations. These results suggest that eNTK eigenanalysis may provide a new handle towards identifying features in trained models for mechanistic interpretability.


翻译:我们提供证据表明,对经验神经正切核(eNTK)进行特征分析能够揭示已训练神经网络中的特征方向。通过三个逐渐逼近真实场景的案例——在模加法任务上训练的单层MLP、单层Transformer,以及预训练语言模型Gemma-3-270M——我们展示eNTK的顶部特征空间与真实标签或可解释特征存在对齐关系。在模算术示例中,eNTK的顶部特征空间分别与MLP使用的傅里叶特征、以及Transformer为实现已知真实算法而采用的种子依赖频率下的傅里叶特征对齐。此外,相关子空间的对齐程度随训练过程演化,其一阶导数在"顿悟"现象出现初期达到峰值。对于Gemma-3-270M模型,我们在TinyStories上下文窗口数据集上计算了顶部eNTK特征方向,并检验其与自动生成的词性标注及其他语法特征方向的对齐程度。研究发现,eNTK特征方向与语法特征的对齐效果优于同等计算预算下基于模型激活的PCA基线方法。这些结果表明,eNTK特征分析或可为机械可解释性领域识别已训练模型中的特征提供新途径。

0
下载
关闭预览

相关内容

【NTU博士论文】直推迁移学习的视觉识别,190页pdf
专知会员服务
36+阅读 · 2024年1月5日
专知会员服务
12+阅读 · 2021年5月26日
掌握图神经网络GNN基本,看这篇文章就够了
新智元
164+阅读 · 2019年2月14日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 33分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 47分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员