From Isolation to Entanglement: When Do Interpretability Methods Identify and Disentangle Known Concepts? - 专知论文

会员服务 ·

0

可辨认的 · 表示 · 相互独立的 · INTERACT · 潜在 ·

From Isolation to Entanglement: When Do Interpretability Methods Identify and Disentangle Known Concepts?

翻译：从孤立到纠缠：可解释性方法何时能识别和解开已知概念？

Aaron Mueller,Andrew Lee,Shruti Joshi,Ekdeep Singh Lubana,Dhanya Sridhar,Patrik Reizinger

from arxiv, ACL 2026

A goal of interpretability is to recover disentangled representations of latent concepts (features) from the activations of neural networks. The quality of features is typically evaluated in isolation, and under implicit independence assumptions that may not hold in practice. Thus, it is unclear to what extent common featurization methods such as sparse autoencoders (SAEs) and probes disentangle one concept from another. We propose a multi-concept evaluation setting using concepts including sentiment, domain, voice, and tense. We evaluate how well featurizers produce disentangled representations of each concept, observing that features are typically sensitive to only one concept, but also that concepts are distributed across many features. Then, we steer these features, measuring whether each concept is independently manipulable, and whether features interact. Even in idealized settings, steering a feature often affects many concepts, despite a near absence of interaction effects. These results suggest that correlational metrics are insufficient to establish steering selectivity, and that demonstrating that two features operate in separate spaces is insufficient to claim that they will be selective for one concept. These results underscore the importance of multi-concept evaluations in interpretability research.

翻译：可解释性研究的一个目标是，从神经网络的激活中恢复潜在概念（特征）的解纠缠表示。特征质量通常是在孤立条件下，并在可能不成立的隐含独立性假设下进行评估。因此，尚不清楚常见的特征化方法（如稀疏自编码器（SAE）和探针）能在多大程度上将一个概念与另一个概念解纠缠。我们提出了一个多概念评估设置，使用了包括情感、领域、语态和时态在内的概念。我们评估了特征化器对每个概念产生解纠缠表示的效果，观察到特征通常仅对单一概念敏感，但概念也分布在许多特征上。然后，我们对这些特征进行引导，测量每个概念是否可独立操控，以及特征之间是否存在交互作用。即使在理想化设置中，引导一个特征通常会影响多个概念，尽管几乎没有交互效应。这些结果表明，相关性指标不足以建立引导的选择性，并且证明两个特征在不同的空间中运作，也不足以声称它们将对一个概念具有选择性。这些结果强调了在多概念评估在可解释性研究中的重要性。

0

相关内容

可辨认的

CoLiDR: 使用聚合解缠表示进行概念学习

CoLiDR: 使用聚合解缠表示进行概念学习

专知会员服务

15+阅读 · 2024年8月21日

【KDD2024】CoLiDR：使用聚合的解缠表示进行概念学习

【KDD2024】CoLiDR：使用聚合的解缠表示进行概念学习

专知会员服务

18+阅读 · 2024年7月30日

【2023新书】深度学习中的可解释性，486页pdf

【2023新书】深度学习中的可解释性，486页pdf

专知会员服务

155+阅读 · 2023年5月12日

《可解释人工智能》最新报告，迈向高阶&可解纠缠可解释人工智能，Gregoire Montavon柏林自由大学，附Slide与视频

《可解释人工智能》最新报告，迈向高阶&可解纠缠可解释人工智能，Gregoire Montavon柏林自由大学，附Slide与视频

专知会员服务

43+阅读 · 2023年2月27日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

181+阅读 · 2020年8月27日

综述：可解释的知识系统发展方向，附17页论文下载

专知会员服务

102+阅读 · 2020年3月19日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

GAN生成式对抗网络

10+阅读 · 2018年3月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

小特征有限域离散对数问题研究及其在密码学中的意义

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

矩阵分解问题的优化算法与理论

国家自然科学基金

8+阅读 · 2014年12月31日

奇异线性方程组和具有特定结构的非线性问题的研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

Similarity-based representation factorization for revealing interpretable dimensions in representational data

Arxiv

0+阅读 · 6月16日

From Tokens to Policy: Causal and Interpretable Heterogeneous Treatment Effects Identification

Arxiv

0+阅读 · 6月15日

Scalable Circuit Learning for Interpreting Large Language Models

Arxiv

0+阅读 · 6月15日

DifFRACT: Diffusion Feature Reconstruction and Attribution for Circuit Tracing

Arxiv

0+阅读 · 6月14日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 6月12日

Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Arxiv

0+阅读 · 6月10日

Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction

Arxiv

0+阅读 · 6月9日

Explainable Forecasting of Scientific Breakthroughs from Concept Network Dynamics

Arxiv

0+阅读 · 6月2日

From Tokens to Concepts: Leveraging SAE for SPLADE

Arxiv

0+阅读 · 5月31日

When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

相互独立的

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

8+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

3+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

7+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

9+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

4+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

8+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

6+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

6+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

6+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

4+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

12+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

10+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

6+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

9+阅读 · 7月31日

相关VIP内容

CoLiDR: 使用聚合解缠表示进行概念学习

CoLiDR: 使用聚合解缠表示进行概念学习

专知会员服务

15+阅读 · 2024年8月21日

【KDD2024】CoLiDR：使用聚合的解缠表示进行概念学习

【KDD2024】CoLiDR：使用聚合的解缠表示进行概念学习

专知会员服务

18+阅读 · 2024年7月30日

【2023新书】深度学习中的可解释性，486页pdf

【2023新书】深度学习中的可解释性，486页pdf

专知会员服务

155+阅读 · 2023年5月12日

《可解释人工智能》最新报告，迈向高阶&可解纠缠可解释人工智能，Gregoire Montavon柏林自由大学，附Slide与视频

《可解释人工智能》最新报告，迈向高阶&可解纠缠可解释人工智能，Gregoire Montavon柏林自由大学，附Slide与视频

专知会员服务

43+阅读 · 2023年2月27日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

181+阅读 · 2020年8月27日

综述：可解释的知识系统发展方向，附17页论文下载

专知会员服务

102+阅读 · 2020年3月19日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

GAN生成式对抗网络

10+阅读 · 2018年3月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Similarity-based representation factorization for revealing interpretable dimensions in representational data

Arxiv

0+阅读 · 6月16日

From Tokens to Policy: Causal and Interpretable Heterogeneous Treatment Effects Identification

Arxiv

0+阅读 · 6月15日

Scalable Circuit Learning for Interpreting Large Language Models

Arxiv

0+阅读 · 6月15日

DifFRACT: Diffusion Feature Reconstruction and Attribution for Circuit Tracing

Arxiv

0+阅读 · 6月14日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 6月12日

Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Arxiv

0+阅读 · 6月10日

Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction

Arxiv

0+阅读 · 6月9日

Explainable Forecasting of Scientific Breakthroughs from Concept Network Dynamics

Arxiv

0+阅读 · 6月2日

From Tokens to Concepts: Leveraging SAE for SPLADE

Arxiv

0+阅读 · 5月31日

When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability

Arxiv

0+阅读 · 5月14日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

利用连续变量多组份纠缠态实现经典和量子算法

国家自然科学基金

0+阅读 · 2015年12月31日

小特征有限域离散对数问题研究及其在密码学中的意义

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

矩阵分解问题的优化算法与理论

国家自然科学基金

8+阅读 · 2014年12月31日

奇异线性方程组和具有特定结构的非线性问题的研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员