Presented is a novel methodology for determining representational structure, which builds upon the existing Spotlight Resonance method. This new tool is used to gain insight into how discrete representations can emerge and organise in autoencoder models, through a controlled ablation study that alters only the activation function. Using this technique, the validity of whether function-driven symmetries can act as implicit inductive biases on representations is determined. Representations are found to tend to discretise when the activation functions are defined through a discrete algebraic permutation-equivariant symmetry. In contrast, they remain continuous under a continuous algebraic orthogonal-equivariant definition. This confirms the hypothesis that the symmetries of network primitives can carry unintended inductive biases, leading to task-independent artefactual structures in representations. The discrete symmetry of contemporary forms is shown to be a strong predictor for the production of symmetry-organised discrete representations emerging from otherwise continuous distributions -- a quantisation effect. This motivates further reassessment of functional forms in common usage due to such unintended consequences. Moreover, this supports a general causal model for a mode in which discrete representations may form, and could constitute a prerequisite for downstream interpretability phenomena, including grandmother neurons, discrete coding schemes, general linear features and a type of Superposition. Hence, this tool and proposed mechanism for the influence of functional form on representations may provide insights into interpretability research. Finally, preliminary results indicate that quantisation of representations correlates with a measurable increase in reconstruction error, reinforcing previous conjectures that this collapse can be detrimental.


翻译:本文提出了一种确定表征结构的新方法,该方法建立在现有Spotlight Resonance方法的基础上。通过一项仅改变激活函数的受控消融研究,这一新工具被用于深入理解离散表征如何在自编码器模型中涌现并组织。利用该技术,我们验证了函数驱动的对称性是否能够作为表征的隐式归纳偏置。研究发现,当激活函数通过离散代数置换等变对称性定义时,表征倾向于离散化;相反,在连续代数正交等变定义下,表征保持连续性。这证实了网络原语的对称性可能携带非预期的归纳偏置,从而导致表征中出现与任务无关的人为结构这一假设。研究证明,当代常用函数形式的离散对称性能够强有力地预测从连续分布中涌现出由对称性组织的离散表征——即一种量化效应。这一发现促使我们基于此类非预期后果,对常用函数形式进行进一步重新评估。此外,该研究支持了一种关于离散表征形成模式的通用因果模型,并可能构成下游可解释性现象(包括祖母神经元、离散编码方案、广义线性特征及一类叠加态)的先决条件。因此,这一工具及所提出的函数形式对表征影响的机制,可能为可解释性研究提供新的见解。最后,初步结果表明,表征的量化与重建误差的显著增加相关,这强化了先前关于这种坍缩可能有害的猜想。

0
下载
关闭预览

相关内容

图机器学习的核心原理:表征、鲁棒性与泛化性
【国防科大】复杂异构数据的表征学习综述
专知会员服务
86+阅读 · 2020年4月23日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
综述 | 知识图谱向量化表示
开放知识图谱
33+阅读 · 2017年10月26日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
0+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员