A goal of interpretability is to recover disentangled representations of latent concepts (features) from the activations of neural networks. The quality of features is typically evaluated in isolation, and under implicit independence assumptions that may not hold in practice. Thus, it is unclear to what extent common featurization methods such as sparse autoencoders (SAEs) and probes disentangle one concept from another. We propose a multi-concept evaluation setting using concepts including sentiment, domain, voice, and tense. We evaluate how well featurizers produce disentangled representations of each concept, observing that features are typically sensitive to only one concept, but also that concepts are distributed across many features. Then, we steer these features, measuring whether each concept is independently manipulable, and whether features interact. Even in idealized settings, steering a feature often affects many concepts, despite a near absence of interaction effects. These results suggest that correlational metrics are insufficient to establish steering selectivity, and that demonstrating that two features operate in separate spaces is insufficient to claim that they will be selective for one concept. These results underscore the importance of multi-concept evaluations in interpretability research.


翻译:可解释性研究的一个目标是,从神经网络的激活中恢复潜在概念(特征)的解纠缠表示。特征质量通常是在孤立条件下,并在可能不成立的隐含独立性假设下进行评估。因此,尚不清楚常见的特征化方法(如稀疏自编码器(SAE)和探针)能在多大程度上将一个概念与另一个概念解纠缠。我们提出了一个多概念评估设置,使用了包括情感、领域、语态和时态在内的概念。我们评估了特征化器对每个概念产生解纠缠表示的效果,观察到特征通常仅对单一概念敏感,但概念也分布在许多特征上。然后,我们对这些特征进行引导,测量每个概念是否可独立操控,以及特征之间是否存在交互作用。即使在理想化设置中,引导一个特征通常会影响多个概念,尽管几乎没有交互效应。这些结果表明,相关性指标不足以建立引导的选择性,并且证明两个特征在不同的空间中运作,也不足以声称它们将对一个概念具有选择性。这些结果强调了在多概念评估在可解释性研究中的重要性。

0
下载
关闭预览

相关内容

CoLiDR: 使用聚合解缠表示进行概念学习
专知会员服务
15+阅读 · 2024年8月21日
【KDD2024】CoLiDR:使用聚合的解缠表示进行概念学习
专知会员服务
18+阅读 · 2024年7月30日
【2023新书】深度学习中的可解释性,486页pdf
专知会员服务
155+阅读 · 2023年5月12日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
专知会员服务
102+阅读 · 2020年3月19日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员