Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning - 专知论文

会员服务 ·

0

子空间 · 无监督 · 监督 · 表示 · 分解 ·

Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning

翻译：通过无监督学习将表示空间分解为可解释的子空间

Xinting Huang,Michael Hahn

from arxiv, Published as a conference paper at ICLR 2026

Understanding internal representations of neural models is a core interest of mechanistic interpretability. Due to its large dimensionality, the representation space can encode various aspects about inputs. To what extent are different aspects organized and encoded in separate subspaces? Is it possible to find these ``natural'' subspaces in a purely unsupervised way? Somewhat surprisingly, we can indeed achieve this and find interpretable subspaces by a seemingly unrelated training objective. Our method, neighbor distance minimization (NDM), learns non-basis-aligned subspaces in an unsupervised manner. Qualitative analysis shows subspaces are interpretable in many cases, and encoded information in obtained subspaces tends to share the same abstract concept across different inputs, making such subspaces similar to ``variables'' used by the model. We also conduct quantitative experiments using known circuits in GPT-2; results show a strong connection between subspaces and circuit variables. We also provide evidence showing scalability to 2B models by finding separate subspaces mediating context and parametric knowledge routing. Viewed more broadly, our findings offer a new perspective on understanding model internals and building circuits.

翻译：理解神经模型的内部表示是机制可解释性的核心关注点。由于其高维特性，表示空间能够编码输入数据的多个方面。不同方面在多大程度上被组织并编码在独立的子空间中？是否有可能以纯粹无监督的方式找到这些“自然”子空间？令人惊讶的是，我们确实能够通过一个看似无关的训练目标实现这一目标并找到可解释的子空间。我们的方法——邻域距离最小化（NDM）——以无监督方式学习非基对齐的子空间。定性分析表明，子空间在多数情况下具有可解释性，且所获子空间中编码的信息倾向于在不同输入间共享相同的抽象概念，使得这些子空间类似于模型使用的“变量”。我们还利用GPT-2中的已知电路进行了定量实验；结果显示子空间与电路变量之间存在强关联。我们进一步通过发现中介上下文与参数知识路由的独立子空间，证明了该方法可扩展至20亿参数模型。从更广阔的视角看，我们的发现为理解模型内部机制和构建电路提供了新的思路。

0

相关内容

子空间

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知会员服务

87+阅读 · 2022年8月11日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

专知会员服务

50+阅读 · 2022年4月30日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

最新《监督机器学习可解释性》2020大综述论文，74页pdf

最新《监督机器学习可解释性》2020大综述论文，74页pdf

专知会员服务

130+阅读 · 2020年11月19日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知会员服务

103+阅读 · 2020年6月26日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

134+阅读 · 2019年12月7日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

GAN生成式对抗网络

10+阅读 · 2018年3月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

空间插值的微分几何方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

莫比乌斯不变空间上复合算子若干问题

国家自然科学基金

0+阅读 · 2014年12月31日

解析函数空间上的Toeplitz型奇异积分算子

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间的拓扑分类

国家自然科学基金

1+阅读 · 2014年12月31日

Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection

Arxiv

0+阅读 · 3月9日

Circuit Insights: Towards Interpretability Beyond Activations

Arxiv

0+阅读 · 3月4日

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Arxiv

0+阅读 · 2月18日

Why Linear Interpretability Works: Invariant Subspaces as a Result of Architectural Constraints

Arxiv

0+阅读 · 2月10日

Interpretability and Generalization Bounds for Learning Spatial Physics

Arxiv

0+阅读 · 2月9日

Efficient Representations are Controllable Representations

Arxiv

0+阅读 · 2月8日

Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures

Arxiv

0+阅读 · 2月7日

Towards Understanding What State Space Models Learn About Code

Arxiv

0+阅读 · 2月6日

Unsupervised Physics-Informed Operator Learning through Multi-Stage Curriculum Training

Arxiv

0+阅读 · 2月2日

LAVA: Explainability for Unsupervised Latent Embeddings

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

专知会员服务

1+阅读 · 14分钟前

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR 2026】语义泡沫：统一空间与语义场景分解

专知会员服务

1+阅读 · 14分钟前

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

0+阅读 · 16分钟前

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

专知会员服务

5+阅读 · 今天4:33

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

5+阅读 · 5月1日

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

9+阅读 · 5月1日

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

15+阅读 · 5月1日

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

6+阅读 · 5月1日

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

6+阅读 · 5月1日

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

7+阅读 · 5月1日

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

11+阅读 · 5月1日

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

10+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

8+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

11+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

21+阅读 · 4月30日

相关VIP内容

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知会员服务

87+阅读 · 2022年8月11日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

专知会员服务

50+阅读 · 2022年4月30日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

最新《监督机器学习可解释性》2020大综述论文，74页pdf

最新《监督机器学习可解释性》2020大综述论文，74页pdf

专知会员服务

130+阅读 · 2020年11月19日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知会员服务

103+阅读 · 2020年6月26日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

134+阅读 · 2019年12月7日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR Highlight 2026】 VPDR：驯服噪声诱导的原型退化，实现隐私保护个性化联邦微调

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

GAN生成式对抗网络

10+阅读 · 2018年3月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection

Arxiv

0+阅读 · 3月9日

Circuit Insights: Towards Interpretability Beyond Activations

Arxiv

0+阅读 · 3月4日

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Arxiv

0+阅读 · 2月18日

Why Linear Interpretability Works: Invariant Subspaces as a Result of Architectural Constraints

Arxiv

0+阅读 · 2月10日

Interpretability and Generalization Bounds for Learning Spatial Physics

Arxiv

0+阅读 · 2月9日

Efficient Representations are Controllable Representations

Arxiv

0+阅读 · 2月8日

Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures

Arxiv

0+阅读 · 2月7日

Towards Understanding What State Space Models Learn About Code

Arxiv

0+阅读 · 2月6日

Unsupervised Physics-Informed Operator Learning through Multi-Stage Curriculum Training

Arxiv

0+阅读 · 2月2日

LAVA: Explainability for Unsupervised Latent Embeddings

Arxiv

0+阅读 · 1月30日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

空间插值的微分几何方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

莫比乌斯不变空间上复合算子若干问题

国家自然科学基金

0+阅读 · 2014年12月31日

解析函数空间上的Toeplitz型奇异积分算子

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间的拓扑分类

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员