Presented is a novel methodology for determining representational structure, which builds upon the existing Spotlight Resonance method. This new tool is used to gain insight into how discrete representations can emerge and organise in autoencoder models, through a controlled ablation study that alters only the activation function. Using this technique, the validity of whether function-driven symmetries can act as implicit inductive biases on representations is determined. Representations are found to tend to discretise when the activation functions are defined through a discrete algebraic permutation-equivariant symmetry. In contrast, they remain continuous under a continuous algebraic orthogonal-equivariant definition. This confirms the hypothesis that the symmetries of network primitives can carry unintended inductive biases, leading to task-independent artefactual structures in representations. The discrete symmetry of contemporary forms is shown to be a strong predictor for the production of symmetry-organised discrete representations emerging from otherwise continuous distributions -- a quantisation effect. This motivates further reassessment of functional forms in common usage due to such unintended consequences. Moreover, this supports a general causal model for a mode in which discrete representations may form, and could constitute a prerequisite for downstream interpretability phenomena, including grandmother neurons, discrete coding schemes, general linear features and a type of Superposition. Hence, this tool and proposed mechanism for the influence of functional form on representations may provide insights into interpretability research. Finally, preliminary results indicate that quantisation of representations correlates with a measurable increase in reconstruction error, reinforcing previous conjectures that this collapse can be detrimental.


翻译:本文提出了一种确定表征结构的新方法,该方法建立在现有Spotlight Resonance方法的基础上。通过一项仅改变激活函数的受控消融研究,这一新工具被用于深入理解离散表征如何在自编码器模型中涌现并组织。利用该技术,我们验证了函数驱动的对称性是否能够作为表征的隐式归纳偏置。研究发现,当激活函数通过离散代数置换等变对称性定义时,表征倾向于离散化;相反,在连续代数正交等变定义下,表征保持连续性。这证实了网络原语的对称性可能携带非预期的归纳偏置,从而导致表征中出现与任务无关的人为结构这一假设。研究证明,当代常用函数形式的离散对称性能够强有力地预测从连续分布中涌现出由对称性组织的离散表征——即一种量化效应。这一发现促使我们基于此类非预期后果,对常用函数形式进行进一步重新评估。此外,该研究支持了一种关于离散表征形成模式的通用因果模型,并可能构成下游可解释性现象(包括祖母神经元、离散编码方案、广义线性特征及一类叠加态)的先决条件。因此,这一工具及所提出的函数形式对表征影响的机制,可能为可解释性研究提供新的见解。最后,初步结果表明,表征的量化与重建误差的显著增加相关,这强化了先前关于这种坍缩可能有害的猜想。

0
下载
关闭预览

相关内容

图机器学习的核心原理:表征、鲁棒性与泛化性
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
综述 | 知识图谱向量化表示
开放知识图谱
33+阅读 · 2017年10月26日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员