A central idea in mechanistic interpretability is that neural networks represent more features than they have dimensions, arranging them in superposition to form an over-complete basis. This framing has been influential, motivating dictionary learning approaches such as sparse autoencoders. However, superposition has mostly been studied in idealized settings where features are sparse and uncorrelated. In these settings, superposition is typically understood as introducing interference that must be minimized geometrically and filtered out by non-linearities such as ReLUs, yielding local structures like regular polytopes. We show that this account is incomplete for realistic data by introducing Bag-of-Words Superposition (BOWS), a controlled setting to encode binary bag-of-words representations of internet text in superposition. Using BOWS, we find that when features are correlated, interference can be constructive rather than just noise to be filtered out. This is achieved by arranging features according to their co-activation patterns, making interference between active features constructive, while still using ReLUs to avoid false positives. We show that this kind of arrangement is more prevalent in models trained with weight decay and naturally gives rise to semantic clusters and cyclical structures which have been observed in real language models yet were not explained by the standard picture of superposition. Code for this paper can be found at https://github.com/LucasPrietoAl/correlations-feature-geometry.


翻译:机制可解释性中的一个核心观点是,神经网络所表示的特征数量超过其维度数,通过叠加的方式将这些特征排列成过完备基。这一框架具有重要影响,推动了稀疏自编码器等字典学习方法的发展。然而,叠加现象主要在特征稀疏且不相关的理想化场景中被研究。在这些场景中,叠加通常被理解为引入了干扰,需要通过几何方式最小化,并由ReLU等非线性激活函数滤除,从而产生如正多胞体等局部结构。本文通过引入词袋叠加(BOWS)这一受控设置——用于在叠加中编码互联网文本的二进制词袋表示——证明上述解释对于真实数据是不完备的。利用BOWS,我们发现当特征相关时,干扰可以具有建设性作用,而不仅仅是需要滤除的噪声。这是通过根据特征的共激活模式来排列特征实现的,使得活跃特征之间的干扰具有建设性,同时仍利用ReLU避免误报。我们证明,这种排列方式在权重衰减训练的模型中更为普遍,并且自然会产生语义簇和循环结构——这些结构在实际语言模型中已被观察到,但无法用标准的叠加理论解释。本文代码可在 https://github.com/LucasPrietoAl/correlations-feature-geometry 获取。

0
下载
关闭预览

相关内容

【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
59+阅读 · 2019年11月10日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关VIP内容
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
59+阅读 · 2019年11月10日
相关资讯
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员